知识|产品视角下的知识图谱构建流程与技术理解( 八 )


语言层不匹配和模型层不匹配。
具体如下:
语言层不匹配:
指的是用来描述知识的元语言是不匹配的,其中既包括描述知识语言的语法和所使用的语言原语上的不匹配,还包括定义类、关系和公理等知识成分机制上的匹配。
模型层不匹配:
指的是由于本体建模方式不同所造成的不匹配,包括不同建模者对事物的概念化抽象不匹配、对相同概念或关系的划分方式不匹配,以及对本体成分解释的不匹配。
目前,解决本体异构有两种思路:
1. 本体集成本体集成,顾名思义,就是将多个本体合并为一个大本体,最直接的做法是将多个本体进行集成,变成一个统一的本体,提供统一的语义规范和共享词汇,这样就可以统一交互。
但这样操作容易使集成后的本体太大,不好修改与维护。
目前应用较多的是基于全局本体 – 局部本体的集成,通过抽取异构本体之间的共同知识,建立一个全局本体,这个全局本体代表了不同系统之间的共识,而每个系统可以保留自己的本体,称为局部本体。
局部本体既可以在全局本体的基础上扩充,也可以直接建立自己的本体。
全局本体与局部本体建立映射,局部本体侧重于特定的知识,全局本体保证不同系统异构间的部分能相互交互。
2. 本体映射寻找本体间的映射规则,将不同本体间建立联系,如上边提到的局部本体和全局本体的映射。
第一步要明确本体映射分类,这是建立异构本体间映射的基础。
分类可以按照映射的对象、映射的功能、映射的复杂程度来进行。

  • 映射的对象:明确映射应该建立在异构本体的哪些成分之间。
  • 映射的功能:明确应该建立具有何种功能的本体映射。
  • 映射的复杂程度:明确说明什么形式的映射是简单的,什么形式的映射是复杂的。
在确定本体映射的分类后,最重要也是最困难的任务在于如何发现异构本体间的映射。
手工建立关系非常耗时,目前的研究热点是采用合理的方法和工具进行自动或半自动的构建。
不同的本体映射的方法使用的技术不同,但过程基本是相似的。
  1. 导入待映射的本体:不一定统一本体语言,但映射成分需方便获取。
  2. 发现映射:利用一定的算法,如计算概念间的相似度等,寻找异构本体间的联系,然后根据这些联系建立异构本体间的映射规则。
  3. 表示映射:将这些映射合理地表示起来,根据映射的类型,借助工具将发现的映射合理表示和组织。
在进行实例层之间的相互融合时,计算数据量巨大,如何在降低计算的时间复杂度、空间复杂度的前提下提升匹配质量,是一个两难的问题,目前主要方法与简介如下:
知识|产品视角下的知识图谱构建流程与技术理解
文章插图
八、知识图谱推理、知识统计与图挖掘通过知识表示,我们确定了知识以什么样的方式组织、表示和储存,使人类和计算机有了认识和使用知识图谱的基础;知识抽取则是从各种已有的数据库,专业知识和互联网上文本、表格等。
提取出我们关心的数据,并通过各种方法爬取,清洗,将原本结构化、半结构化、非结构化的各种非图谱数据变为图谱中可用的、结构化的图谱数据,相当于建成了基本的知识图谱。
建立了知识图谱后,为了实现不同系统间的的知识图谱的交互,让不同图谱对应到统一的本体和实例,需要进行知识图谱融合,知识融合极大的拓展了知识图谱的规模和应用场景。
通过以上三步,基本上就构建了有一定规模和实用性,可以实现不同系统间交互的知识图谱,即实现了数据的从无到有,从有到有用的过程。