导读:知识图谱工程实践仅仅是迈向智能的第一步。丰富的结构化知识很有用,但是如何将这些符号化的知识融合应用到计算框架中仍然是一大挑战。通过与各类自然语言处理算法或模型结合,由知识驱动的显式事实知识和隐式语言表征,集成语言知识,才能发挥认知智能的威力,推动常识理解和推理能力的进步。
下面我们将介绍知识图谱如何提升智能水平。
作者:王楠 赵宏宇 蔡月
来源:华章科技
01 语义匹配
语义匹配是搜索推荐、智能问答和辅助决策的基础。在没有知识图谱以前,文本匹配主要依靠字面匹配为主,通过数据库搜索来获取匹配结果。但这种做法存在两个问题,一方面是文本输入本身的局限性造成检索遗漏;另一方面,检索结果的评价缺少可解释性,排序受到质疑,因此往往无法搜到想要的结果。
知识图谱的出现有效解决了上述两个问题,一方面通过关键词扩展获得更多输入效果,另一方面通过实体链接或对齐、概念层匹配,从数据库中获得对输入结果的解释和说明,进一步扩展了输入。如果输入为句子文本,还可以结合角色标注获得语义理解效果。
知识图谱在语义匹配方面,在如图4-12所示的几个方面增强了智能性。
▲图4-12 知识图谱为语义匹配增强智能性
1. 关键词增强
先定义词的同义词、上下位词等词集合,当关键词被检索时,其他与该关键词相关的词也通过图搜索的方式被检索出来,用来扩展或约束搜索,更加全面、准确地查找自己需要的信息。
2. 实体链接(对齐)
对自然语言描述的问题进行语法和语义分析,进而将其转化成结构化形式的查询语句,在知识图谱中直接查询甚至命中答案,而非召回大量网页链接。比如搜索“茶圣的作品是什么?”,可以返回答案“茶经”。其中茶圣链接到了陆羽,再从陆羽的知识卡片中查到了作品名称茶经。
3. 概念匹配
基于建立的知识库,通过图形用户接口(可视化的本体概念树)或关键词提交查询,系统、快速、有效地检索出某个概念的所有实例。在图谱中搜索“机器人”,可查看与该概念有关系的实例(比如软体机器人、码垛机器人等),这是概念的下位词。
通过概念关系,也可以获得上下游链条中的概念,从而帮助我们细化知识选择,提高概念检索的范围。实现从网页链接向概念链接转变,支持按概念主题而不是字符串检索。以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来。
4. 句间关系匹配
句间关系匹配是对两个短语或者句子之间的关系进行分类,常见句间关系匹配如自然语言推理(Natural Language Inference, NLI)、语义相似度判断(Semantic Textual Similarity,STS)等。通过关系分类或预测,可以从句子级别计算语义匹配度,提高语义分析能力。
02 搜索推荐
大数据时代,每天都在产生海量信息,迅速和准确获取感兴趣的文本越来越困难,大量“长尾分布”内容更是没有机会被发现或关注。从自然语言输入和输出的角度看,搜索可以视为被动推荐,推荐也可以看成是自发搜索,因此某种程度上可以合在一起讨论。
早期根据用户输入进行搜索,通过建立索引和输入字面匹配来获得结果召回,不能获得精确答案,局限性强。依托知识图谱实现语义扩展,可以获得更好的排序召回结果。如图4-13所示搜索过程的几个方面,体现知识图谱智能的威力。
1. 实体与概念识别
对于用户输入的自然语句,通过预处理、查询纠错、分词,进一步实现词向量模型、句法分析和模式挖掘。搜索推荐的查询语句将映射到词向量空间中,建立合适的向量表示学习模型,识别概念模式、实体类型和实体。
▲图4-13 搜索推荐的主要内容
2. 查询意图理解
执行上述实体、概念查询,在知识图谱中完成实体链接和概念模式匹配。通过计算局部实体链接、短文链接、跨语言链接,获得实体理解。进一步配合多例归纳,实现概念理解。综合查询扩展内容,进行意图分类或匹配,从而完成搜索意图判断。
3. 查询语句生成
按照意图分析或模板匹配,进一步按照查询位置或查询重要度,生成SQL查询语句或SPAQRL语句。
4. 答案推荐与评估
对于上述查询获得召回答案进行排序,然后评估搜索效果,完善搜索逻辑。由于知识图谱的加持,通过注入基于知识图谱的辅助信息(例如,实体、关系和属性),我们能够对用户、商品、行为制作精细画像。
比如用户信息可能包括用户ID、用户属性(性别、年龄、地区)或先前浏览文本。商品是系统推荐的实体,如视频、歌曲或图书。行为可以包括查询/上下文、点击、浏览、收藏、交易等。这些信息辅助查询排序。
推荐可以看作主动搜索,但往往不能解决交互稀疏性问题和冷启动问题。基于约束和实例的推荐将外部信息引入,为推荐系统赋予常识推理的能力,在某种程度可以看成是一种推理,能够解决冷启动问题。针对交互稀疏性问题,可以利用知识图谱的图结构,将搜索推荐交互看作“实体-关系”路径,从而基于路径计算预测文本偏好。
03 问答对话
近几年问答对话受到广泛的关注,特别是在知识图谱助力下,使得知识图谱问答取得了长足发展。由于对话可以视为多轮问答,因此仅以问答简言。知识图谱问答根据用户问题的语义直接在知识图谱上查找、推理,把知识图谱作为先验知识融入到问答中,获得相匹配的答案。
其优点包括:经处理之后的数据质量高,因此图谱问答回答更为准确,检索效率更高,能够支持推理。这种问答方式自动、准确而直接,是搜索引擎的新形态,其智能性体现如图4-14所示。
▲图4-14 问答对话的智能性体现
1. 问句意图识别
将用户意图划分为关系查询、属性查询、比较、判断等不同类别。设计句子模板,进行匹配判断,或通过实体链接和属性匹配来识别。比如直接匹配了实体和属性,那么返回属性值或关系名称;或者基于图计算方法对意图打标签。目前比较流行的基于深度学习的方法,通过输入语句表示学习,完成意图分类。
2. 实体识别与连接
意图识别完成以后,要进行实体识别和链接,识别问句中的实体,并与知识图谱实体对应。如果有多个候选链接结果则要进行消歧。基于第3章介绍的文本标注、文本匹配和图计算方法,最后返回最佳识别或链接结果。
3. 槽位与关系识别
识别问句中的实体、约束、关系,从候选关系中选择语义匹配度最高的关系路径。这主要通过槽位填充或关系识别完成。通过实体约束条件判断主实体和约束关系,通过实体链接和排序模型,最后给出问题关系路径识别。
4. 问句改写
在关系路径识别基础上,对输入问句进行同义改写。需要对改写后查询语句和原输入问句做语义一致性判断,只有语义一致的问句改写对才能生效。在不改变用户意图的情况下,尽可能多的召回满足用户意图的搜索结果。
5. 答案排序与评估
调用排序模块,对召回结果归并和过滤。依据关键词串、知识扩展、场景匹配等的综合打分。验证评估方面,通过对语义验证集、日志抽样标注集的分析,对离线和在线问答模型进行优化和评估。
其中语义验证集通过同义业务记录抽样获得,日志抽样标注集通过用户历史日志直接匹配、推荐或标注获得。同时,通过与文本问答的数据融合,进一步反向补全和更新知识图谱,从而完成知识生命周期闭环。
04 推理决策
推理决策是知识图谱智能输出的主要方式,一般运用于知识发现、冲突与异常检测,是知识精细化工作和决策分析的主要实现方式。知识推理的常见方法包括本体推理、规则挖掘推理、表示学习推理。针对不同的应用场景,选择不同的推理方法。
在实际应用中,基于本体结构与所定义的规则,执行确定性推理。通常需要在已知事实上反复迭代使用规则,如下图4-15所示,推理杨宗保和杨金花的关系,就需要执行规则的构建和迭代。可以推理出以下关系:hasChild(杨宗保,杨金花)。
根据图中的已知关系路径建立推理路径。通过对增量知识和规则的快速加载,推理生成新的数据以及更多实体链接和关系,需要知识图谱推理引擎支持。
在时序知识图谱条件下,描述粒度更大、动态演化的事件图谱,主要体现在两方面:一个是事件识别,一个是事件的影响分析。
事件识别可以理解为事件的建模,或者说事件本体的构建。比如诉讼事件可以简单建模成{事件类型:诉讼事件;影响标的:某公司;情感分析:-0.5;事件热度:0.8;事件影响度:0.5};也可以对此进行更加复杂的建模,把原告、被告、诉讼金额、诉讼地点等识别出来,从而更加精准地对事件加以描述。
▲图4-15 基于规则直接推理
事件的影响分析有两个维度,一是事件回测,二是事件传播影响。事件回测是对历史上同类事件的发生做一个数据统计分析,目的是看历史上同类事件发生后,对于相关公司会有什么样的影响。
通过事件识别命中某个事件主体的企业链信息、股权链信息和产业链信息。事件自身的正负面、影响度、热度会沿着知识图谱实体的关系网络进行传播,对这个传播影响进行定性或者定量的分析。对行业数据实时查询和联动分析,通过将上述文本进行表示学习,可以预测事件关联关系,帮助企业实现因果逻辑推理决策。
比如原材料涨价,对行业上下游的公司有什么影响?从生产角度看,通过市场前景估计,分析自己和竞争对手的产量、成本、利润率。比如从供需关系出发,计算市场容量、供应和存量关系,减少定价政策盲目性。这类问题的起点是一个个具体的事件,寻找的答案是事件的影响分析。
05 区块链协作
从知识到价值,如何对知识归属和定价进行确认,实现数字化价值呢?知识图谱是信息沉淀的最终形式,从知识定价开始衡量价值是最合适的定价方式。由于区块链最大优势是数据的一致性、不可篡改和透明化,那么将知识图谱与区块链结合就可以产生知识认证或知识通证(knowledge token)。
知识通证是一个权益证明,也是一种使用权证,可交换、可衡量,让知识在使用过程中付费。通过区块链推动知识的价值传播,使得任何有价值传递属性的产业都可能被重塑。比如属于用户的行为知识、画像知识,通过区块链进行确权,通过流通变现,为用户权益赋予价值,进一步激发用户知识贡献的热情。这就是未来知识价值生态圈的发展模式。
那么区块链怎么与知识图谱进行协作呢?实际上,语义网早期理念就包括了知识互联、去中心化的架构和知识可信三个方面。今天知识图谱在一定程度上实现了“知识互联”的理念,进一步我们可以在知识鉴真和去中心化架构两个层面思考解决方案。
1. 知识一致性鉴真
众筹、知识鉴真是当前很多知识图谱项目所面临的挑战。由于数据来源广泛,知识的可信度量需要作用到实体级别,怎样有效的对海量事实进行管理、追踪和鉴真,成为区块链技术在知识图谱领域的一个重要应用方向。
比如互联网法院的电子存证区块链平台,通过时间、地点、人物、事前、事中、事后等六个维度,解决数据认证问题,让电子数据的生产、存储、传播和使用实现全流程可信。
从链路上看,互联网上案件信息是互通的,任何一个环节的电子证据都可以被抓取。比如网络购物案件中淘宝订单,通过实名认证、时间戳、加密、隐私保护、风控、信用评价等,让分布于多个节点的证据一一对应,使得诉讼信息都可沉淀、挖掘、应用,从而验证知识一致性,完成鉴真工作。
2. 去中心化的价值图谱
过去由于知识分散,知识发布者难以拥有完整的控制权。近年来,区块链技术正在实现包括去中心化的实体ID管理、基于分布式账本的术语及实体名称管理、基于分布式账本的知识溯源、知识签名和权限管理等功能。面对传统的产业链生态,需要重新分配商业价值,实现价值共享。
基于去中心化的区块链确权正是为达到这一目的而生,让每个个体、每个组织都能够基于自己的劳动力、生产力发行通证,形成群体协作,能够公平地分享价值,促进自组织的价值生态圈构建。因此,通过区块链的共识机制,在分布式条件下实现价值分配,将知识图谱变成价值图谱。
关于作者:王楠,北京大学博士,“创青春-中关村U30”2020年度优胜者,先后任教于中国科学院、北京信息科技大学计算机学院。研究方向包括人工智能算法、知识图谱、自然语言处理与地球电磁学等。
赵宏宇,现就职于腾讯看点搜索团队,担任算法研究员。有多年NLP、搜索系统、推荐系统的工作经验,涉及专利、招聘和网页搜索等场景。精通PyTorch、TensorFlow等主流深度学习框架,擅长运用NLP前沿技术解决工业项目难题。
蔡月,清华-深圳湾实验室联合培养博士后,于2017年获得北京大学生物医学工程博士学位。曾担任东软医疗上海磁共振研发中心高级算法研究员。研究方向为数据科学、磁共振图像算法、深度学习等,擅长脑科学领域数据分析、磁共振图像加速、去噪等算法研究。
本文摘编自《自然语言理解与行业知识图谱:概念、方法与工程落地》,经出版方授权发布。(ISBN:978-7-111-69830-2)
《自然语言理解与行业知识图谱》
推荐语:本部分首先阐述自然语言理解的发展脉络和理解逻辑,主要围绕语言符号、处理体系、语义理解等进行探讨,引出自然语言理解的自动分析原理和方法,包括自然语言特征、统计学习、机器学习、深度学习、知识图谱等。