言简意赅,盘点知识图谱在各领域的应用
言简意赅,盘点知识图谱在各领域的应用01 语义匹配02 搜索推荐03 问答对话04 推理决策05 区块链协作什么是知识图谱?通俗易懂01 语义匹配语义匹配是搜索推荐、智能问答和辅助决策的基础。在没有知识图谱以前,文本匹配主要依靠字面匹配为主,通过数据库搜索来获取匹配结果。但这种做法存在两个问题,一方面是文本输入本身的局限性造成检索遗漏;另一方面,检索结果的评价缺少可解释性,排序受到质疑,因此往往无
01 语义匹配
语义匹配是搜索推荐、智能问答和辅助决策的基础。在没有知识图谱以前,文本匹配主要依靠字面匹配为主,通过数据库搜索来获取匹配结果。但这种做法存在两个问题,一方面是文本输入本身的局限性造成检索遗漏;另一方面,检索结果的评价缺少可解释性,排序受到质疑,因此往往无法搜到想要的结果。
知识图谱的出现有效解决了上述两个问题,一方面通过关键词扩展获得更多输入效果,另一方面通过实体链接或对齐、概念层匹配,从数据库中获得对输入结果的解释和说明,进一步扩展了输入。如果输入为句子文本,还可以结合角色标注获得语义理解效果。
1、关键词增强
先定义词的同义词、上下位词等词集合,当关键词被检索时,其他与该关键词相关的词也通过图搜索的方式被检索出来,用来扩展或约束搜索,更加全面、准确地查找自己需要的信息。
2、实体链接(对齐)
对自然语言描述的问题进行语法和语义分析,进而将其转化成结构化形式的查询语句,在知识图谱中直接查询甚至命中答案,而非召回大量网页链接。比如搜索“茶圣的作品是什么?”,可以返回答案“茶经”。其中茶圣链接到了陆羽,再从陆羽的知识卡片中查到了作品名称茶经。
3、概念匹配
基于建立的知识库,通过图形用户接口(可视化的本体概念树)或关键词提交查询,系统、快速、有效地检索出某个概念的所有实例。在图谱中搜索“机器人”,可查看与该概念有关系的实例(比如软体机器人、码垛机器人等),这是概念的下位词。
通过概念关系,也可以获得上下游链条中的概念,从而帮助我们细化知识选择,提高概念检索的范围。实现从网页链接向概念链接转变,支持按概念主题而不是字符串检索。以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来。
4、句间关系匹配
句间关系匹配是对两个短语或者句子之间的关系进行分类,常见句间关系匹配如自然语言推理(Natural Language Inference
, NLI)、语义相似度判断(Semantic Textual Similarity
,STS)等。通过关系分类或预测,可以从句子级别计算语义匹配度,提高语义分析能力。
02 搜索推荐
大数据时代,每天都在产生海量信息,迅速和准确获取感兴趣的文本越来越困难,大量“长尾分布”内容更是没有机会被发现或关注。从自然语言输入和输出的角度看,搜索可以视为被动推荐,推荐也可以看成是自发搜索,因此某种程度上可以合在一起讨论。
早期根据用户输入进行搜索,通过建立索引和输入字面匹配来获得结果召回,不能获得精确答案,局限性强。依托知识图谱实现语义扩展,可以获得更好的排序召回结果。
1、实体与概念识别
对于用户输入的自然语句,通过预处理、查询纠错、分词,进一步实现词向量模型、句法分析和模式挖掘。搜索推荐的查询语句将映射到词向量空间中,建立合适的向量表示学习模型,识别概念模式、实体类型和实体。
2. 查询意图理解
执行上述实体、概念查询,在知识图谱中完成实体链接和概念模式匹配。通过计算局部实体链接、短文链接、跨语言链接,获得实体理解。进一步配合多例归纳,实现概念理解。综合查询扩展内容,进行意图分类或匹配,从而完成搜索意图判断。
3、查询语句生成
按照意图分析或模板匹配,进一步按照查询位置或查询重要度,生成SQL查询语句或SPAQRL语句。
4、答案推荐与评估
对于上述查询获得召回答案进行排序,然后评估搜索效果,完善搜索逻辑。由于知识图谱的加持,通过注入基于知识图谱的辅助信息(例如,实体、关系和属性),我们能够对用户、商品、行为制作精细画像。
比如用户信息可能包括用户ID、用户属性(性别、年龄、地区)或先前浏览文本。商品是系统推荐的实体,如视频、歌曲或图书。行为可以包括查询/上下文、点击、浏览、收藏、交易等。这些信息辅助查询排序。
推荐可以看作主动搜索,但往往不能解决交互稀疏性问题和冷启动问题。基于约束和实例的推荐将外部信息引入,为推荐系统赋予常识推理的能力,在某种程度可以看成是一种推理,能够解决冷启动问题。针对交互稀疏性问题,可以利用知识图谱的图结构,将搜索推荐交互看作“实体-关系
”路径,从而基于路径计算预测文本偏好。
03 问答对话
近几年问答对话受到广泛的关注,特别是在知识图谱助力下,使得知识图谱问答取得了长足发展。由于对话可以视为多轮问答,因此仅以问答简言。知识图谱问答根据用户问题的语义直接在知识图谱上查找、推理,把知识图谱作为先验知识融入到问答中,获得相匹配的答案。
其优点包括:经处理之后的数据质量高,因此图谱问答回答更为准确,检索效率更高,能够支持推理。这种问答方式自动、准确而直接,是搜索引擎的新形态。
1、问句意图识别
将用户意图划分为关系查询、属性查询、比较、判断等不同类别。设计句子模板,进行匹配判断,或通过实体链接和属性匹配来识别。比如直接匹配了实体和属性,那么返回属性值或关系名称;或者基于图计算方法对意图打标签。目前比较流行的基于深度学习的方法,通过输入语句表示学习,完成意图分类。
2、实体识别与连接
意图识别完成以后,要进行实体识别和链接,识别问句中的实体,并与知识图谱实体对应。如果有多个候选链接结果则要进行消歧。基于第3章介绍的文本标注、文本匹配和图计算方法,最后返回最佳识别或链接结果。
3、槽位与关系识别
识别问句中的实体、约束、关系,从候选关系中选择语义匹配度最高的关系路径。这主要通过槽位填充或关系识别完成。通过实体约束条件判断主实体和约束关系,通过实体链接和排序模型,最后给出问题关系路径识别。
4、问句改写
在关系路径识别基础上,对输入问句进行同义改写。需要对改写后查询语句和原输入问句做语义一致性判断,只有语义一致的问句改写对才能生效。在不改变用户意图的情况下,尽可能多的召回满足用户意图的搜索结果。
5、答案排序与评估
调用排序模块,对召回结果归并和过滤。依据关键词串、知识扩展、场景匹配等的综合打分。验证评估方面,通过对语义验证集、日志抽样标注集的分析,对离线和在线问答模型进行优化和评估。
其中语义验证集通过同义业务记录抽样获得,日志抽样标注集通过用户历史日志直接匹配、推荐或标注获得。同时,通过与文本问答的数据融合,进一步反向补全和更新知识图谱,从而完成知识生命周期闭环。
04 推理决策
推理决策是知识图谱智能输出的主要方式,一般运用于知识发现、冲突与异常检测,是知识精细化工作和决策分析的主要实现方式。知识推理的常见方法包括本体推理、规则挖掘推理、表示学习推理。针对不同的应用场景,选择不同的推理方法。
在实际应用中,基于本体结构与所定义的规则,执行确定性推理。通常需要在已知事实上反复迭代使用规则,如下图所示,推理杨宗保和杨金花的关系,就需要执行规则的构建和迭代。可以推理出以下关系:hasChild(杨宗保,杨金花)。
根据图中的已知关系路径建立推理路径。通过对增量知识和规则的快速加载,推理生成新的数据以及更多实体链接和关系,需要知识图谱推理引擎支持。
在时序知识图谱条件下,描述粒度更大、动态演化的事件图谱,主要体现在两方面:一个是事件识别,一个是事件的影响分析。
事件识别可以理解为事件的建模,或者说事件本体的构建。比如诉讼事件可以简单建模成{事件类型:诉讼事件;影响标的:某公司;情感分析:-0.5;事件热度:0.8;事件影响度:0.5};也可以对此进行更加复杂的建模,把原告、被告、诉讼金额、诉讼地点等识别出来,从而更加精准地对事件加以描述。
事件的影响分析有两个维度,一是事件回测,二是事件传播影响。事件回测是对历史上同类事件的发生做一个数据统计分析,目的是看历史上同类事件发生后,对于相关公司会有什么样的影响。
通过事件识别命中某个事件主体的企业链信息、股权链信息和产业链信息。事件自身的正负面、影响度、热度会沿着知识图谱实体的关系网络进行传播,对这个传播影响进行定性或者定量的分析。对行业数据实时查询和联动分析,通过将上述文本进行表示学习,可以预测事件关联关系,帮助企业实现因果逻辑推理决策。
比如原材料涨价,对行业上下游的公司有什么影响?
从生产角度看,通过市场前景估计,分析自己和竞争对手的产量、成本、利润率。比如从供需关系出发,计算市场容量、供应和存量关系,减少定价政策盲目性。这类问题的起点是一个个具体的事件,寻找的答案是事件的影响分析。
05 区块链协作
从知识到价值,如何对知识归属和定价进行确认,实现数字化价值呢?知识图谱是信息沉淀的最终形式,从知识定价开始衡量价值是最合适的定价方式。由于区块链最大优势是数据的一致性、不可篡改和透明化,那么将知识图谱与区块链结合就可以产生知识认证或知识通证(knowledge token
)。
知识通证是一个权益证明,也是一种使用权证,可交换、可衡量,让知识在使用过程中付费。通过区块链推动知识的价值传播,使得任何有价值传递属性的产业都可能被重塑。比如属于用户的行为知识、画像知识,通过区块链进行确权,通过流通变现,为用户权益赋予价值,进一步激发用户知识贡献的热情。这就是未来知识价值生态圈的发展模式。
那么区块链怎么与知识图谱进行协作呢?实际上,语义网早期理念就包括了知识互联、去中心化的架构和知识可信三个方面。今天知识图谱在一定程度上实现了“知识互联”的理念,进一步我们可以在知识鉴真和去中心化架构两个层面思考解决方案。
1、知识一致性鉴真
众筹、知识鉴真是当前很多知识图谱项目所面临的挑战。由于数据来源广泛,知识的可信度量需要作用到实体级别,怎样有效的对海量事实进行管理、追踪和鉴真,成为区块链技术在知识图谱领域的一个重要应用方向。
比如互联网法院的电子存证区块链平台,通过时间、地点、人物、事前、事中、事后等六个维度,解决数据认证问题,让电子数据的生产、存储、传播和使用实现全流程可信。
从链路上看,互联网上案件信息是互通的,任何一个环节的电子证据都可以被抓取。比如网络购物案件中淘宝订单,通过实名认证、时间戳、加密、隐私保护、风控、信用评价等,让分布于多个节点的证据一一对应,使得诉讼信息都可沉淀、挖掘、应用,从而验证知识一致性,完成鉴真工作。
2、去中心化的价值图谱
过去由于知识分散,知识发布者难以拥有完整的控制权。近年来,区块链技术正在实现包括去中心化的实体ID管理、基于分布式账本的术语及实体名称管理、基于分布式账本的知识溯源、知识签名和权限管理等功能。面对传统的产业链生态,需要重新分配商业价值,实现价值共享。
基于去中心化的区块链确权正是为达到这一目的而生,让每个个体、每个组织都能够基于自己的劳动力、生产力发行通证,形成群体协作,能够公平地分享价值,促进自组织的价值生态圈构建。因此,通过区块链的共识机制,在分布式条件下实现价值分配,将知识图谱变成价值图谱。
更多推荐
所有评论(0)