国产AI蛋白质结构预测再现突破,用单条序列解决3D结构

万博发自凹非寺
量子位|公众号QbitAI
计算生物领域 , 出现一则最新进展:
AI预测蛋白质3D结构 , 仅通过单条蛋白序列就能搞定 。
也就是说 , AI预测蛋白质结构 , 可以不需要蛋白质进化过程中的同源信息 。 一些人工设计的蛋白质药物和工业合成用酶 , 也可以通过AI预测3D结构 , 确定其对人体的功能 。
达成这一成就的AI算法名为OmegaFold , 在最近的全球持续蛋白质预测竞赛中 , 整体预测能力已经与DeepMind此前开发的AlphaFold2 , 和华盛顿大学开发的RoseTTAFold不相上下 , 甚至有些指标优于后两者 。
研究成果来自国内AI创新药物公司华深智药 , 一家成立不到一年的中国初创企业 , 孵化自张亚勤旗下的清华大学智能产业研究院 。
国产AI蛋白质结构预测再现突破,用单条序列解决3D结构
文章图片
AI预测蛋白质结构不再需要同源信息【国产AI蛋白质结构预测再现突破,用单条序列解决3D结构】据华深智药披露 , 其最新开发的OmegaFold算法 , 实现了用单一蛋白质序列预测蛋白质3D结构的能力 。
而且在测试准确度上 , 和AlphaFold2和RoseTTAFold不相上下 。
同时在测试速度 , 快于AlphaFold2和RoseTTAFold 。
具体测试过程 , 是这样的:
研究团队分别对CASP和CAMEO的蛋白质数据集进行了测试 , 其中CASP数据集有29个蛋白质 , CAMEO数据集有146个单链蛋白质 。
(PS:这里的CASP和CAMEO , 是蛋白质结构预测领域最重要的两项比赛)
作为对比 , 在测试中 , 研究团队在上OmegaFold仅输入单一蛋白质序列 , 对AlphaFold2和RoseTTAFold , 则是在默认模式下输入多重序列(MSA) 。
国产AI蛋白质结构预测再现突破,用单条序列解决3D结构
文章图片
最终 , CAMEO数据集测试 , OmegaFold预测的蛋白质3D结构 , 平均局部距离差异测试(LDDT:全球结构预测领域主要评价指标)得分为0.82 。
而AlphaFold2与RoseTTAFold的得分 , 分别是0.75和0.86 。
CASP数据集的测试结果 , OmegaFold的平均TM分值*(评估蛋白质结构拓扑学相似性的常用指标)为0.79 , 与AlphaFold2不相上下 , 不过略低于RoseTTAFold0.81的分数 。
研究团队表示 , 从结果来看 , 采用单序列进行预测的OmegaFold , 已经整体达到或超越了采用多序列预测的AlphaFold2和RoseTTAFold 。
国产AI蛋白质结构预测再现突破,用单条序列解决3D结构
文章图片
而且 , 研究团队还发现 , 因为只采用单一序列预测蛋白质的3D结构 , 因此在AI算法的训练和预测速度上 , 也有很大提升 , 蛋白质结构预测时间 , 可以被压缩到数秒内 。
国产AI蛋白质结构预测再现突破,用单条序列解决3D结构
文章图片
Helixon团队还同时发现 , 仅通过氨基酸序列来预测三维结构 , 不仅减少了同源序列所带来的噪音 , 还能够提高训练和预测的计算速度 , 使得蛋白质结构可以在数秒内被预测完毕 。
基于此 , 研究团队用OmegaFold , 对两类缺乏蛋白质同源进化信息的蛋白质 , 抗体蛋白质和孤儿蛋白质进行结构预测 。
结果发现 , OmegaFold在这两类蛋白质 , 尤其是抗体的关键功能区结构预测 , 有突破性的进展 。
而这类缺乏蛋白质同源进化信息的蛋白质 , 恰好是AlphaFold2和RoseTTAFold无法到达的盲区 。
对此 , 华深智药创始人彭健认为 , 这项研究成果意味着:
蛋白质3D结构预测 , 并不需要同源序列的存在 , 也不需要知道任何进化信息 。
国产AI蛋白质结构预测再现突破,用单条序列解决3D结构