AlphaFold开源一年:探索新冠祖源,彻底改写生物学( 二 )


Jumper说 , AlphaFold的2020版是其第二版 。 它之前还赢得了2018年的CASP , 但其早期的努力大多不足以代替实验确定的蛋白质结构 。 然而 , 平均而言 , AlphaFold2的预测结果与实际蛋白质结构的经验值相当 。
当时还不清楚DeepMind何时会将该软件或其预测广泛发布 , 因此有研究人员使用了来自DeepMind的AlphaFold团队负责人JohnJumper一次公开演讲的信息 , 结合他们自己的技术水平 , 开发了他们自己的人工智能工具 , 名为RoseTTAFold 。
然后 , 在2021年7月15日 , 描述RoseTTAFold和AlphaFold2的论文同时发布 。 随论文公开的 , 还有免费提供的开源代码和运行自制版本的工具所需的其他专业信息 。
一周后 , DeepMind宣布 , 它已经使用AlphaFold预测了几乎每一种由人类设计的蛋白质结构 , 以及其他20种被广泛研究的生物体的整个「蛋白质组」 , 如小鼠和大肠杆菌——总共超过365000个结构 。
DeepMind还将这些信息公开发布到EMBL欧洲生物信息学研究所(EMBL–EBI)维护的数据库中 。 自那以后 , 该数据库已增长到近100万个结构 。
2022年 , DeepMind计划发布总计超过1亿个预测结构 。 这几乎是所有已知蛋白质的一半 , 是蛋白质数据库(PDB)结构库中实验确定的蛋白质数量的数百倍 。
AlphaFold开源一年:探索新冠祖源,彻底改写生物学
文章图片
AlphaFold的发展历程
AlphaFold部署了深度学习神经网络—受大脑神经网络启发的计算架构—以识别数据中的模式 。 它已经在PDB和其他数据库中通过实验确定了成千上万的蛋白质结构和序列 。
面对一个新的氨基酸序列 , 它首先在数据库中寻找相关的序列 , 这些序列可以识别出倾向于一起衍变的氨基酸 , 这表明它们在3D空间中接近 。
AlphaFold在试图为氨基酸的3D位置建模时 , 会从这些平行轨迹中反复迭代线索 , 并不断更新其估算值 。 现有相关蛋白质的结构还提供了另一种方法估算新序列中氨基酸对之间的距离 。
专家表示 , AlphaFold之所以效果表现如此优异 , 似乎是因为它在机器学习研究中应用了新方法 , 特别是它使用了自注意力机制 , 来确定在任何时候 , 哪些氨基酸连接对它的任务最重要 。
该网络依赖于相关蛋白质序列的信息 , 这意味着AlphaFold有一些局限性 。
AlphaFold不能用来预测突变对蛋白质形状的影响 , 比如那些导致疾病的突变 。 它也没有被训练去确定蛋白质在其他相互作用的蛋白质或分子(如药物)存在时是如何改变形状的 。
AlphaFold开源一年:探索新冠祖源,彻底改写生物学
文章图片
但是它的模型带有评分机制 , 用来衡量神经网络AI对蛋白质中每个氨基酸单元的预测的置信值 。 研究人员正在调整AlphaFold的代码 , 以扩大其功能 。
据DeepMind称 , 到目前为止 , 已有超过40万人使用了EMBL-EBI的AlphaFold数据库 。 还有一些AlphaFold的「超级用户」研究者在自设的服务器上安装了该软件 , 或者使用基于云版本的AlphaFold来预测EMBL-EBI数据库之外的蛋白质结构 , 或者设想该工具的新用途 。
解决结构问题
AlphaFold解决蛋白质结构问题的能力给生物学家留下了深刻的印象 。
丹麦奥胡斯大学结构生物学家ThomasBoesen说:「根据我目前所看到的情况 , 我非常信任AlphaFold 。 」该软件已经成功地预测了Boesen中心已经确定但尚未公布的蛋白质的形状 。
Boesen说:「从我的角度看 , 这增加了我当前工作的信心」 。 他正在使用AlphaFold来模拟细菌蛋白质的结构 , 这些蛋白质促进冰晶的形成 , 可能有助于大气云中冰的冷却效果 , 因为生物学家还不能通过实验完全确定这种结构 。