人类|人类生物学的大突破,就这样被 AI 做到了( 二 )


AphaFold2 和之前的算法一样,也是利用这些信息计算来预测。
它的成功还告诉我们:当计算机技术、工程技术、大数据、神经网络等方式应用到生物学领域,将带来前所未有的成果。这正是「合成生物学」正在做的事。
合成生物学至今仅有二十年历史,目前甚至没有完全划定研究对象的范围。但在研究方法上,合成生物学有共识,就是将工程性技术和传统生物技术结合。
比如,解析蛋白质结构一直是结构生物学家的研究课题,DeepMind 方法中的工程学思维就是充分挖掘数据,结合不同的分析模块,流程上反复优化以取得最优解。
令人惊叹的工程创新人们常常说 AI 的特长在于暴力计算,但 AlphaFold2 是暴力计算和人类聪明才智的结晶。
发表在Nature的论文有 19 位并列的第一作者,其中有分子动力学、人工智能、量子化学、自然语言处理、医疗影像等各种专业的科学家。更令人意外的是,甚至还有一位拥有十年以上管理经验的资深产品经理。但是转念一想,这样一个汇集多领域知识的复杂项目,有一位项目经理,也是情理之中。
从公布的算法而言,AlphaFold2 模型的独特性在于两点:引入双注意力机制、实现端到端模型。前者是更加有效提取和加工数据,后者是取消了作为过渡的编码/解码过程,就减少了信息的损耗。这两个想法本身并非 DeepMind 原创。
人类|人类生物学的大突破,就这样被 AI 做到了
文章插图
注意力机制源于自然语言处理(NLP)模型,其中的关键结构是特征提取器 Transformer,作用是让模型有选择地注意关键信息。在 2020 年 2 月份,Facebook 最早将 Transformer 引入蛋白质序列对比,让神经网络更好地对蛋白质序列建模。
在 AlphaFold2 中则使用了两个 Transformer,因此称为双注意力机制。
这两个 Transformer 负责提取不同的数据,一个在已知的蛋白质库里进行同源序列对比,也就是用已知的蛋白质结构做参考;另一个关注氨基酸残基对,也就是微观上,两个氨基酸之间会发生怎样的相互作用。
关键在于,这两个信息路径不是彼此独立的,而是持续交流,这就实现了 1+1>2 的效果。经过 48 次迭代,算法最终建立出氨基酸相互作用的模型。
这就反映出整个模型设计的重要思想:信息在整个神经网络中来回流动。换句话说,这部分算法是为了充分在数据库里榨出信息。
端到端模型也是一个重要的创新之处。也就是说,输入一个蛋白质信息,就可以输出三维空间的预测结果,中间没有其他编码和解码环节。
信息在不同的形式间转手一次,就会带来一次损耗。那么更直接处理上一环节的数据,计算的结果就更准确。
此前的算法模型(包括上一版本的 AlphaFold)都会有中间环节,计算完氨基酸之间的距离后,用数据建立能量函数,然后再进行三维结构预测。整个过程,数据先被函数处理,再变成坐标轴信息。
AlphaFold2 则是直接建立每个氨基酸局部的坐标系统,由此计算蛋白质的三维结构。也就是将第一阶段处理的数据直接映射到三维空间。
整个模型还用了许多其它技术来提升预测的准确性,比如创新的 Loss Fuction(损失函数),三维模型计算结果的反复优化(Recycling)……所有的技术综合在一起,才能够实现如此好的预测效果。
这无疑是一个大型且复杂的工程。前台展现出的是计算机技术,但是要完成这些算法设计,必须要有对生物现象的深刻理解。比如,在第一个处理信息的阶段,两个 Transformer 如何互相配合,将氨基酸残基对的微观信息整合进整个氨基酸序列的信息中,在写算法时就要对折叠过程有准确的领悟。