吴飞|浙大求是特聘教授吴飞:数据驱动与知识引导相互结合的智能计算( 二 )


今年8月,李国杰院士写了一篇文章,提出了一个疑问:为什么我们的人工智能上不着天下不落地?恐怕我们已经进入了第五范式时代。李院士的这篇文章,直接用 AlphaFold 的例子来表示他所认为的第五范式:今后的科学计算,或者人工智能计算,一定是领域专家和数据的驱动相互结合,才能形成场景人工智能或者解决场景的任务。
数据驱动和知识引导相互结合的人工智能时代,即给定一堆数据,我们需要从数据里面吸取知识,然后基于知识做决策和服务。这里的数据一定是满足任务可学习、结果可信、过程可推理和架构可实现这些条件。这种架构可实现,是现在的大型互联网公司有能力完成的,我们也发现,下游的任务确实在大模型的驱动下能够得到很好解决。


2

三种记忆体
我们反思一下,人脑的智能计算或者科学计算是怎样的模式?生物学家和神经学家告诉我们,人的大脑有三种记忆体,第一个叫做瞬时记忆。我们可以眼观六路、耳听八方,在一个空间里可以瞬时感觉到这个空间里各种各样数据,这就是瞬时记忆。但如果我们没有对瞬时记忆的数据引起注意,这些信息就不会传给工作记忆体。
吴飞|浙大求是特聘教授吴飞:数据驱动与知识引导相互结合的智能计算
文章插图

瞬时记忆传给工作记忆体后,工作记忆体直接展开用因果智能计算的高层次数据活动,但这些高层次的活动并不是就事论事,就数据论数据,它会激活我们长期记忆里的先验和知识。比如,我们今天来到成都,中午和朋友聚餐;。我们在到达成都时,可能会回忆起上一次来成都干什么;和上次相比,成都有什么变化;朋友又发生了什么变化。我们经常讲弦外之音、话外之意,为什么别人讲话,我们能听出话外之意?这是因为工作记忆体激活了相关的信息来理解当前的数据。

3

数据驱动与知识引导相互而结合的人工智能时代
我们从这个过程已经深刻感觉到,对当前数据的理解,一定激活了其他信息,这种信息是一种潜在的信息,或者叫做common sense,即常识性信息,也有人把它称为暗知识,我们无法表达,机器也无法捕捉,但人的大脑可以很好地捕捉下来。既然人脑是这样的活动模式,现在的智能计算可否往这个渠道进行?
DeepMind 在 2016 年发表了一篇《神经图灵机》的文章,我们知道图灵计划就是两端无限长的纸袋,上面有非常多的方格,然后把数据放在纸袋上,数据驱动以写好的程序进行。这个过程没有利用到数据以外的信息。但神经图灵机架构起一个外在记忆体,对当前数据能更好地学习、理解和处理,以得到更好的学习成果。这篇文章发表后,Nature 期刊为其形成社论,称其为深度神经推理,而不是平常的推理机制。
现在我们也发现,只要有一个 x 算法,神经网络一定会把 x 算法变成一个 give 算法,或者一定想把它和认知或者神经结合起来,也就是不停地探索计算方式和方法,与我们大脑和心理认知如何更好地结合,这不是无病呻吟,而是沿着人脑的思路进行扩展。现在的计算一定要有数据,而且一定是数据驱动;亦即人工智能是引擎,大数据是燃料,一个模型空转转不起来。
第二,知识很重要。我们不能一味从数据里发现知识,一定要有知识指导计算过程。此外,行为探索也很重要,人毕竟是在一个开放的环境里进行认知与思考。所以,数据、知识、行为相互结合,是不是一种更好的计算模式?掀起新一轮人工智能浪潮使用的计算方法,AlphaGo 有深度学习、强化学习和蒙特卡罗树搜索三把利剑,而AlphaFold 则是图神经网络、注意力模型和物理建模相互结合。