吴飞|浙大求是特聘教授吴飞:数据驱动与知识引导相互结合的智能计算( 三 )


吴飞|浙大求是特聘教授吴飞:数据驱动与知识引导相互结合的智能计算
文章插图

科学计算经过了三代发展,已经把数据和知识进行更好的探索。第一代是给定一个结构,然后去预测结构的性质;第二代是给定一些组成成分,去重建结构,然后基于重建的结构预测性质;第三代就是给定一堆数据,从给定的数据里繁衍结构,以及推理这个结构的性质,这是一个很重要的人工智能发展方向。
AlphaFold是 1972 年诺贝尔奖获得者的一个猜想。人体有非常多的氨基酸,氨基酸里编码了蛋白质,这些蛋白质不同的三维空间结构已经定义了我们生命的功能。那么,给定一段氨基酸,能否预测氨基酸所具有的三维空间结构?如果能预测,我们就编码了生命的功能。
今年8月份,《自然》杂志发表了一篇现在被称为 AlphaFold 的文章,《科学》杂志同时也发表了一篇叫做 Rose TTAFold 的文章。AlphaFold 和 Rose TTAFold 都非常强调 attention,即注意力,但这个“注意力”不是我们大脑的一种注意力,注意力是学习的输入和输出之间的一种关系。例如,给定一幅人脸图像,为什么要去预测这是一张人脸?一定是学习到的输入和输出之间存在一种关联,这个关联肯定是通过像素点复杂的空间模式挖掘出来的。如果现在输入一段氨基酸序列,去重演它的三维结构,是不是也是学一种叫做 attention 的关联?
这两篇文章有什么区别?Rose TTAFold 是美国华盛顿大学的一个实验室写的,它的第一作者非常坦白地承认 Rose TTAFold 的性能不如 AlphaFold,因为他们的实验室没有深度学习的工程师,只是一些生物学家拿着 Deep Learning 的工具写出来。但是 AlphaFold 不仅会利用工具,还会修改工具,比如,它可以对 Deep Learning 的一些结构进行修改和重新设计,因此其性能超越了 Rose TTAFold。
吴飞|浙大求是特聘教授吴飞:数据驱动与知识引导相互结合的智能计算
文章插图

大家可以反思一下,今后的人工智能一定是来自不同领域的工程师一起协作,这也预测着李国杰院士说的为什么人工智能上不了天、落不了地,因为要解决场景的任务,一定要和场景的工程师,以及 Deep Learning 的专家结合起来。按照李院士的说法,就是要把领域的知识和数据,在 Deep Learning工具之下更好地结合,他把它称为正在呈现的第五范式。
2020年3月份,李院士受命撰写中国工程院有关人工智能的特刊,我是咨询副主编。特刊发表时,编辑部的同事让我们画封面文章,我和一位年轻老师先用铅笔画,只有人脑和机器脑结合起来才会形成这种学会学习能力。人的大脑一定是稀疏的,虽然人脑据说有 400 亿个神经元,但完成任务时只有一小部分的神经元被激活,所以人脑一天只有 25 度电。而 AlphaGo Zero 经过了 2900 万次的训练,能战胜所有的 AlphaGo,它的耗电量几乎等于洛杉矶一年的耗电量。
人的大脑很复杂,但在完成某个任务时一定是稀疏的,而机器脑一定是密集的 ,比如机器的进化速度服从摩尔定律,每18个月性能就提升一倍。一个稀疏的人脑和一个稠密的机器脑结合,恐怕就是迈向人机耦合获得数据驱动和人的知识相互结合的时代。这期期刊还邀请了一些专家撰写文章,比如潘院士认为人工智能的下一步就是多重知识表达。今年的 CAAI 年会上有一期分论坛就叫做视觉知识的表达,把知识表达好,可能是下一步人工智能迈进的正确方向。
朱松纯老师也受邀写了一篇文章,以此回答他认为的“机器大脑是大数据小任务,人的大脑是小数据大任务”。但是,小数据大任务不是只给一点数据就能学复杂的任务,一定是在大任务的构建之下。只有小数据,如何完成大任务的训练?知识在其中起了很重要的作用,这里的知识不只是旧数据,可编码的知识、可感知的知识、暗知识以及常识性的知识一定也参与了大脑的智能活动。朱老师的这篇文章的标题也很吸引人,叫《“暗”,不止于“深”——迈向认知智能与类人常识的范式转换》。