背景
随着大量互联网汽车公司的涌现,抢占市场先机已经成为了公司快速发展的硬道理。面对争分夺秒的汽车研发周期,如何让新人快速的上手项目研发工作,如何在开发过程中快速找到问题所在,已成为数字化转型过程中重要的一步。
知识图谱,从2012年google搜索开始进入大众视线,成为炙手可热的技术,目前广泛应用于机器翻译、聊天机器人、智能医疗、智能推荐等领域。汽车行业广为人知的知识图谱应用目前定位在聊天机器人领域。知识图谱能够通过挖掘,通过语义关联把各种实体关联起来,构建大型语义网络,从而把结构化、非结构化的数据通过数据抽取、融合在一起,能够有助于更好的高效利用数据。
目前还没有团队去研究过汽车开发知识相关的语义关系以及知识图谱的构建,但汽车研发的知识图谱构建对于整车研发具有事半功倍的意义,无论是对于新进项目的团队成员还是资深专家,都是非常有帮助的。因此,如何构建汽车开发知识的知识图谱,方便用户查找开发相关知识以及解决问题是高效造车需要的催化剂。
02
知识图谱
知识图谱实际是一个大规模的语义网络(semantic network),主要由概念实体和语义关系构成,通过把所有不同种类的信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。知识图谱架构如图1所示。
图1 知识图谱架构
知识图谱涉及多种算法,拥有很多公开模型,但由于缺乏汽车研发知识相关知识的公开标注数据集,所以模型训练困难重重,以至于很难构建从结构化/非结构化研发知识文档中识别实体和进行关系抽取。
命名实体识别和关系抽取是知识图谱涉及的两大关键技术。早期的命名实体识别主要是基于HMM和CRF计算方法,属于序列标注问题的解决。后来进阶为LSTM和CRF方法,即采用LSTM作为特征抽取器,再接一个CRF层来作为输出层。目前流行的方法是BERT,利用预训练好的BERT模型,再用少量的标注数据进行FINETUNE,来获得较好的命名实体识别效果。
本知识图谱构建方法通过利用命名实体识别(NER)和关系抽取(NRE)两大AI模型,获取汽车零件与相关零件开发知识关联关系,从而获得汽车研发知识图谱。
NER模型中,采用ERNIE作为输入词向量表示,使用多层Transformer Encoder的BERT模型,如图2所示,通过此模型进行命名实体识别。
图2 BERT模型
ERNIE、BERT作为知识增强语义表示模型,相较于one-hot、Word2Vec等静态词向量模型,能够更好的动态了解人类语言,因为人类语言是很复杂,带有上下文、语境联系的。one-hot只能对此进行编码,毫无“相似度”概念,例如“发动机罩盖”和“发盖”的距离与“发动机罩盖”和“副车架”的距离是一摸一样的,Word2Vec将高维的one-hot嵌入到低维空间,使向量更为稠密,虽然可以解决相似度问题,但无法解决一次多义问题,而NER运用反向传播梯度更新等技术可以在实体识别任务中利用其预训练和下游任务的微调机制得到良好的效果。
NER模型中,采用Bi-LSTM增强对词位置及方向的表示,对预训练模型的补充,Bi-LSTM由前向LSTM和后向LSTM组合而成,并通过CRF(条件随机场)增加对预测标签的序列约束以保证其合法性。NRE模型中,通过远程监督学习,利用知识图谱中现有关系及相关实体在语料中的多个句子训练网络进行训练,从而在新语料中以标明实体的情况下,对实体间关系进行推断,完成预测。
NRE模型,采用基于注意力机制的Bi-LSTM模型,能够自动发现那些对于分类起到关键作用的词,从而从每个句子中扑捉到重要的语义信息,完成AI任务。根据语料中包含的特定两个实体的句子样本以及文档级别实体信息,来进行关系抽取;例如“发盖”和“翼子板”等零件存在“匹配”关系、和“隔热垫”等零件存在“卡接”关系,和“缓冲块”等零件存在“接触”关系,当没有关系抽取这层定义存在时,“发盖”和“翼子板”、“隔热垫”、缓冲块”等均作为单独个体,拥有各自的设计开发的知识,而对于用户来说,在进行零件(“发盖”)设计的时候,
不单单是考虑单独零件,还需要考虑与其有“匹配”、“卡接”、“接触”等关系的零件对其所带来的影响或者约束方面的知识,且当零件(“发盖”)发生问题的时候,用户在追溯问题时,也需要考虑与其相关联零件所带来的影响,这个时候知识图谱“关系抽取”所带来的意义和价值就非常重大了,用户可以通过一张知识图谱全局了解到零件及与其关联零件直接的关系、以及相关技术知识。
活动推荐:
华车展ICVS将于2022.9.26-29 苏州国际博览中心举办中国智能汽车及自动驾驶博览会,同期举办:中国智能汽车产业链展,展会规模超30,000㎡、参展品牌500+、共计30,000+专业观众到场,同期还有100场行业大咖演讲。
点击ICVS智能汽车联盟主页—>进入菜单栏展会报名页面,即可免费领取参观门票,现阶段报名还将获取更多福利。