吴飞|浙大求是特聘教授吴飞：数据驱动与知识引导相互结合的智能计算( 四 )

文章插图

我们最近在做一些数据驱动与知识引导的工作，首先这里的知识肯定是领域知识。如果是维基百科或百度百科的知识，把高中生都懂的知识放到神经系统的模式里，也许能改进神经系统的学习性能，但和领域知识相比，作用力而言要小一点。我举两个例子，第一个例子是司法的智能化学习，这里有两个案例都给出了一些司法数据。第一个案例，法院认定了一些事实，原告要求法院判定他的一些事实是成立的；第二个案例，法院认定了一些事实，原告要求法院在这些认定事实的基础上，判决原告的一些诉求是成立的。但在一些真实的案子里，原告有些诉求被驳回，有些则被法院认同。
那么，什么情况下原告的诉求会被法院认同，什么时候会被驳回？能不能把司法知识和这样的数据结合起来，形成数据驱动和知识引导相互结合的神经网络的学习方法？我们提出了数据驱动和知识引导相互结合的方法，数据由神经网络 co-attention network 去学，由数据驱动学习出数据模式，再加以 legal knowledge，即一阶编码的司法知识，两者结合起来以加强原告诉求的判断。把一些司法领域的知识通过一阶位置编码利用起来，与数据驱动进行结合，在一些数据集上进行了测试。
第二个例子叫做 video caption，主要是想解决一段短的 video clip 怎么得到更好的文本描述，主要和阿里达摩院合作。因为阿里要让用户点击商品，必须要把商品所对应的视频用文本描述出来。如何自动生成这种文本描述？我们引入了一个商品属性的知识图谱，通过图神经网络学习得到不同的纸袋之间的空间分布，再通过卷积神经网络学习得到一个像素点的空间分布模式，然后把这些知识结合起来，是不是能够生成一种更具广告效应的文本描述？
把数据和视觉知识结合后，能不能把一些外在的记忆体也引进来？正如刚刚讲的话外之意和弦外之音，不能只针对 video 理解 video，video 里一定有一些高级语义或属性触发了外在记忆体里的知识，加以利用这种知识更好地做视觉信息的分析与处理。再进一步，引入因果知识的关系，去除伪相关的关联，

文章插图

例如，一个吉他手穿着T恤弹吉他，也许弹吉他的人都喜欢穿T恤，本来弹吉他和穿什么衣服没有因果关系，但由于数据选择的偏差，选择的这些场景，吉他手都穿了T恤，结果系统错误地认为，T恤和吉他有关联。这有点像因果学习中，我们常说的公鸡打鸣和太阳升起的例子，公鸡打鸣和太阳升起好像有因果关系，因为公鸡一打鸣太阳就升起。但如果有一天，把全世界的公鸡都杀死，太阳照样升起，它们之间是一种伪关联，这种关系影响了我们学习的效果。如何消除T恤和吉他手的这种关联，用统计分析的关联学习，会说乐器和衬衫之间的关联达到6%，但是引入因果的话，可以把这种伪关联去掉。
数据驱动和知识引导实际上是很难的，特别是如何编码领域知识。对徐院士之前报告里的一句话非常深刻：数据不够模型上，模型不够知识上。好像有点道理，数据不够怎么办？用更强大的模型去拟合，比如支持向量机。模型的能力不够怎么办？知识上，把数据、模型和知识和算力结合起来；算力也很重要，因为我们的模型现在变得比较复杂。
所以，我们提的问题首先一定要领域相关，比如化学问题、物理问题等；然后是物理建模，例如，麦克风放在桌子上，我们不能说麦克风悬浮在空中，这样的物理结构是在人类社会是不存在的，一定要从物理结构里更好地约束建模的方法。最后，人一定要参与进去，这个问题确实很复杂，实际上是我们现在面临的巨大挑战。但人工智能在驱动科学计算，科学计算反过来也会驱动人工智能的进展。我们现在用数据和神经网络，把物理的规则和模型结合起来，是不是能更好地解决领域相关的问题？而领域相关问题的解决，就促进了人工智能的发展。