知识|产品视角下的知识图谱构建流程与技术理解( 八 )

语言层不匹配和模型层不匹配。
具体如下：
语言层不匹配：
指的是用来描述知识的元语言是不匹配的，其中既包括描述知识语言的语法和所使用的语言原语上的不匹配，还包括定义类、关系和公理等知识成分机制上的匹配。
模型层不匹配：
指的是由于本体建模方式不同所造成的不匹配，包括不同建模者对事物的概念化抽象不匹配、对相同概念或关系的划分方式不匹配，以及对本体成分解释的不匹配。
目前，解决本体异构有两种思路：
1. 本体集成本体集成，顾名思义，就是将多个本体合并为一个大本体，最直接的做法是将多个本体进行集成，变成一个统一的本体，提供统一的语义规范和共享词汇，这样就可以统一交互。
但这样操作容易使集成后的本体太大，不好修改与维护。
目前应用较多的是基于全局本体 – 局部本体的集成，通过抽取异构本体之间的共同知识，建立一个全局本体，这个全局本体代表了不同系统之间的共识，而每个系统可以保留自己的本体，称为局部本体。
局部本体既可以在全局本体的基础上扩充，也可以直接建立自己的本体。
全局本体与局部本体建立映射，局部本体侧重于特定的知识，全局本体保证不同系统异构间的部分能相互交互。
2. 本体映射寻找本体间的映射规则，将不同本体间建立联系，如上边提到的局部本体和全局本体的映射。
第一步要明确本体映射分类，这是建立异构本体间映射的基础。
分类可以按照映射的对象、映射的功能、映射的复杂程度来进行。

映射的对象：明确映射应该建立在异构本体的哪些成分之间。
映射的功能：明确应该建立具有何种功能的本体映射。
映射的复杂程度：明确说明什么形式的映射是简单的，什么形式的映射是复杂的。

在确定本体映射的分类后，最重要也是最困难的任务在于如何发现异构本体间的映射。
手工建立关系非常耗时，目前的研究热点是采用合理的方法和工具进行自动或半自动的构建。
不同的本体映射的方法使用的技术不同，但过程基本是相似的。

导入待映射的本体：不一定统一本体语言，但映射成分需方便获取。
发现映射：利用一定的算法，如计算概念间的相似度等，寻找异构本体间的联系，然后根据这些联系建立异构本体间的映射规则。
表示映射：将这些映射合理地表示起来，根据映射的类型，借助工具将发现的映射合理表示和组织。

在进行实例层之间的相互融合时，计算数据量巨大，如何在降低计算的时间复杂度、空间复杂度的前提下提升匹配质量，是一个两难的问题，目前主要方法与简介如下：

文章插图
八、知识图谱推理、知识统计与图挖掘通过知识表示，我们确定了知识以什么样的方式组织、表示和储存，使人类和计算机有了认识和使用知识图谱的基础；知识抽取则是从各种已有的数据库，专业知识和互联网上文本、表格等。
提取出我们关心的数据，并通过各种方法爬取，清洗，将原本结构化、半结构化、非结构化的各种非图谱数据变为图谱中可用的、结构化的图谱数据，相当于建成了基本的知识图谱。
建立了知识图谱后，为了实现不同系统间的的知识图谱的交互，让不同图谱对应到统一的本体和实例，需要进行知识图谱融合，知识融合极大的拓展了知识图谱的规模和应用场景。
通过以上三步，基本上就构建了有一定规模和实用性，可以实现不同系统间交互的知识图谱，即实现了数据的从无到有，从有到有用的过程。