2个月挑战完善AlphaFold2短板!这个AI夏令营毕业生让李开复点赞
衡宇发自凹非寺
量子位|公众号QbitAI
AlphaFold2 , 预测蛋白质结构的扛把子 , 预测了几乎所有已知蛋白质 , 涵盖100万物种2.14亿结构 。
但实验测得的结构不足20万 , 预测的结构是否完全正确 , 无人知晓 。
3位博士生加1位本科生 , 用了多久的时间证实AlphaFold2预测的结构并不都完美这一棘手难题?
答案是2个月 。
文章图片
利用“AI大模型+质谱(MS)” , 4名同学首次提出并训练了谱图的AI语言大模型 , 并实现交联谱图分类模型 , 构建实验支撑的组学规模的空间距离信息数据库 , 验证预测的结构 , 指导结构建模 。
问英雄出处?——DeeCamp2022 , 聚焦“AI+生命科学”的AI训练营 。
2个月里 , 训练营里搞事情的不只上述一支队伍 。
比如研究研究蛋白质相分离能力预测工具 , 蛋白结构预测酶活性、提出能取得更先进效果的AI蛋白质设计新方法……不仅玩法颇多 , 应用场景和商业价值也安排得妥妥的 。
回顾过去几届DeeCamp , 已有诸多围绕“AI+遗传中心法则”的项目被孵化 , 比如AI+基因编辑、AI+蛋白、AI+RNA等 。
文章图片
对奖项点评时 , 大赛评委、清华大学智能产业研究院院长张亚勤发言:
生命科学领域步入数字化3.0时代 , DeeCamp2022聚焦AI+生命科学 , 不仅代表了当下整个科学界的研究趋势 , 也代表了中国的科技和产业发展趋势 。
今年 , DeeCamp为AIforScience注入了哪些新生代力量?
有望完善AlphaFold2短板冠军团队ProteinMiner的项目是大规模蛋白质组学信息发现 。
具体来说 , 就是利用AI+质谱技术 , 首次提出并训练了谱图的AI语言大模型 , 一方面 , 让质谱从头测序的精度大幅提升;另一方面 , 实现了交联谱图分类模型 , 有望使得交联谱图鉴定加速10倍 。
为什么选择它作为赛题?
对疾病研究、药物研发来说 , 蛋白质的序列和结构信息尤为重要 。
文章图片
首先提到的质谱测序技术 , 在蛋白质测序领域地位显著 。
它有两种方法 , 一是依赖数据库“搜库” , 二是没有数据库从头测序 。 因一些未知的蛋白 , 根本没有对应序列数据库 , 深度学习技术在从头测序领域有非常大的用武之地 。 这也是ProteinMiner的着力点之一 。
行业对测序精度的追求永无止境 。
尤其面对大规模的未知序列蛋白 , 现有的质谱从头测序技术 , 仍面临精度低的问题 。
为了提升大规模发现未知蛋白序列与结构信息的能力 , ProteinMiner项目的立足点 , 就是AI与大数据驱动的蛋白质质谱测序技术 。
基于此 , ProteinMiner首次提出预训练的AI谱图语言大模型 。
团队解释道 , 谱图是肽序列生成的 , 从谱图解析肽 , 如同把一种语言翻译成另一种语言 , 即将谱图翻译成肽序列 。
文章图片
大模型加持 , 能够提升质谱从头测序的精度 , 加速免疫相关的新抗原/抗体的发现 , 以推动个性化免疫治疗的进程 。
另一方面 , 蛋白质结构在药物设计等过程中也有重要作用 。
计算生物界的大明星AlphaFold2虽已开源 , 但它一来无法准确预测蛋白复合物 , 二来柔性区域性能差 , 再者 , 最终得到的结果仅是“预测”的结构 。
针对最后这一点 , 交联质谱技术可以通过高通量的实验方法 , 获取氨基酸之间的空间距离约束 , 有望为AlphaFold2提供先验的距离约束 , 进而改进预测的结构 , 有助完善其不足之处 。
- ios16|iOS 16 正式版或将同步亮相!隐私保护获升级,论完善度还得看这家
- iPhone14|预售价大幅上涨,iPhone 14这是试探还是挑战果粉?
- iPhone14|超久直播无压力!moto razr 2022/拯救者Y70北京二环畅跑挑战成功
- 创维HT-i挑战1267km超长续航测试,有实力,才敢刚
- 华为荣耀|花一个月工资,入手vivo X80Pro,不吹不黑,聊聊2个月使用感受
- 编程|发布仅2个月小米12S系列跌至新低,好评度高达98%,口碑逆袭
- 服贸观止 | 从“青春”走向“成熟”,人机物深度融合下的工业互联网平台如何面对新挑战
- 本文转自:北京商报9月3日|服贸观止|从“青春”走向“成熟”,人机物深度融合下的工业互联网平台如何面对新挑战
- CPU|国产处理器性能再提升,挑战AMD英特尔?
- 米家智能厨房S1系列|米家智能嵌入式洗碗机12套S1开启预售,洗碗机性能小金刚,挑战智能清洗体验