生命的元宇宙,被AI给炸开了

本文来自微信公众号:智东西(ID:zhidxcom) , 作者:陈巍 , 原文标题:《用AI炸场“生命元宇宙”!Meta蛋白质大模型深度解析》 , 题图来自:《阿凡达》
就在前几天 , 迄今为止参数最多、规模最大的蛋白质预测模型ESMFold被Meta官宣了 , 甚至有研究者宣称该模型又大又好 , 足以碾压Google在2021年推出的AlphaFold2 。
生命的元宇宙,被AI给炸开了
文章图片
ESMFold与通讯作者MetaAI的Alexander
这一消息着实让学术界和工业界震撼 , 要知道这些大的模型 , 无论训练还是使用 , 都得有妥妥的“钞能力” , 如果模型越来越小 , 说不定就不需要更大算力的芯片了 。 (当然事实并非如此)甚至LeCun大牛都发推为ESMFold背书 , 称之为“Super-fastandaccurate” 。
从氨基酸序列预测蛋白质结构 , 是自然科学中长期存在的重大挑战 。 在基于进化的算法中 , AlphaFold2可以说是目前解决该问题最成功的 。 它通过在多序列输入、进化同源物对齐序列和可选结构模板上训练端到端神经网络 , 取得了突破性成就 , 大大加速了“生命元宇宙”的构建 。
生命的元宇宙,被AI给炸开了
文章图片
蛋白质预测AI大模型的进化
而Meta团队的ESMFold蛋白质模型只需要一个序列作为输入 , 该模型背后的团队由MetaAI(原FacebookAI)的资深研究科学家AlexanderRives主导 。 该团队专注于大规模蛋白质序列和结构数据的无监督表示学习模型研究 。 Alexander本人同时也是FateTherapeutics、SyrosPharma、Kallyope的联合创始人 , 妥妥的科创家 。
那ESMFold真的能碾压AlphaFold2吗?让我们先来回顾下什么是蛋白质结构预测 , 然后再深入分析ESMFold的网络结构 。
生命的元宇宙,被AI给炸开了
文章图片
ESMFold预测的结构
什么是蛋白质结构预测?
首先 , 蛋白质结构是指各种蛋白质分子的空间结构 。 由线性氨基酸组成的蛋白质 , 需要折叠(Fold)成特定的空间结构 , 才具有相应的生理活性和生物学功能 。
生命的元宇宙,被AI给炸开了
文章图片
蛋白质的四级结构
蛋白质的分子结构可划分为四级 , 以描述其不同层级的特征:
蛋白质一级结构:组成蛋白质多肽链的线性氨基酸序列 。
蛋白质二级结构:依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构 , 主要为α螺旋和β折叠 。
蛋白质三级结构:通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构 。
蛋白质四级结构:用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质复合物分子 。
我们所说的蛋白质结构预测(ProteinStructurePrediction) , 就是指从蛋白质的氨基酸序列中预测蛋白质的三维结构 。 也就是说 , 从蛋白质的一级结构预测其折叠和二级、三级、四级结构 。
DeepMind(Google旗下)的AlphaFold2在蛋白质结构预测大赛CASP14中 , 对大部分蛋白质结构的预测与真实结构只差一个原子的宽度 , 达到接近冷冻电镜等复杂仪器检测的水平 。 这一巨大进步被Nature和Science选为2021年度十大科学突破 。
根据不同的氨基酸和序列 , 蛋白质能折叠成的构型数量是一个天文数字 , 因此很难用常规方法进行蛋白质结构的准确预测 。 例如 , 目前实验的方法(例如冷冻电镜)至今才能解出10万的蛋白质结构 。
生命的元宇宙,被AI给炸开了
文章图片