科学家使用Summit超级计算机和深度学习来预测基因组规模的蛋白质功能( 二 )
能够看到蛋白质的结构增加了另一层 , 可以帮助科学家找到最有希望的基因候选进行实验 。
例如 , Piatkowski一直在研究从缅因州到佛罗里达州的苔藓种群 , 目的是确定它们基因中可能适应气候的差异 。 它有一长串可能调节耐热性的基因 。 一些基因序列只有一个核苷酸不同 , 或者在遗传密码的语言中 , 只有一个字母不同 。
「这些蛋白质结构将帮助我们寻找这些核苷酸变化是否会导致蛋白质功能发生变化 , 如果是 , 如何改变?这些蛋白质变化最终会帮助植物在极端温度下生存吗?」Piatkowski说 。
寻找序列中的相似性以确定功能只是挑战的一部分 。 DNA序列被翻译成构成蛋白质的氨基酸 。 通过进化 , 一些序列会随着时间的推移而发生突变 , 将一种氨基酸替换为具有相似特性的另一种氨基酸 。 这些变化并不总是导致功能上的差异 。
直到最近 , 科学家们还没有能够根据基因序列可靠地预测蛋白质结构的工具 。 应用这些新的深度学习工具会改变游戏规则 。
尽管蛋白质的结构和功能仍需要通过物理实验和X射线晶体学等方法来确认 , 但深度学习正在改变范式 , 将候选基因的广阔领域迅速缩小到最有趣的少数基因以供进一步研究 。
革命性工具
【科学家使用Summit超级计算机和深度学习来预测基因组规模的蛋白质功能】深度学习方案中的一种工具称为结构对齐深度学习中的序列对齐 , 或SAdLSA;其训练方式与其他预测蛋白质结构的深度学习模型类似 。 SAdLSA能够通过隐含地理解蛋白质结构来比较序列 , 即使序列只有10%的相似性 。
「SAdLSA可以检测可能具有或不具有相同功能的远缘相关蛋白质 。 」ORNL计算化学家和小组组长JerryParks说 , 「将其与提供蛋白质3D结构模型的AlphaFold相结合 , 您可以分析活性位点以确定哪些氨基酸正在发挥化学作用以及它们如何促成该功能 。 」
文章图片
图示:在大规模部署SAdLSA的计划 。 (来源:论文)
研究人员展示了使用基于结构的深度学习方法进行蛋白质功能注释的新HPC工具箱 。 同时 , 展示了使用基于SAdLSADL的对齐方法大规模部署推理 , 以及开发利用多个GPU的分布式训练方和Summit节点 , 接下来将进一步扩大规模以适应更大的训练数据集 。
研究人员还报告了在Summit上使用Singularity容器和在PACE资源上使用原型小型基因组规模测试用例对AlphaFold结构预测程序的重组和部署 。
文章图片
图示:SAdLSA在Summit上的PDB70数据库上的性能 。 (来源:论文)
工具箱包含多种用于基于结构的功能注释的方法 , 将被用于方案中 , 为功能未知或低置信度注释的大型蛋白质组生成此类注释 , 甚至帮助验证已知功能的蛋白质 , 预测其结构特性 , 以提供有关这些蛋白质可能参与的催化机制和代谢途径的更详细信息 。
在未来的工作中 , 研究人员希望在工具箱的基础上 , 支持生物信息学中新出现的任务 , 包括蛋白质三级和四级结构的大规模预测 , 以及使用各种工具开发新的方案 , 以提供高置信度假设 , 为台架实验提供信息和指导 。
论文链接:https://ieeexplore.ieee.org/document/9652872/authors
相关报道:https://phys.org/news/2022-01-scientists-summit-supercomputer-deep-protein.html
人工智能×[生物神经科学数学物理材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展 。
- 华为|已经“烂大街”的三款5G手机,有你正在使用的手机吗?
- 本文转自:我是科学家iScientist近日|中科院上硅所研发可用于智能玻璃的电致变色器件,响应快颜色深,大大拓展应用领域
- “人工智能50强”女科学家茵玛·马丁内斯:探索太空,人类绝无可能孤军奋战
- 中国科学家领导的国际团队推千万颗恒星目录,以破译银河系化学史
- 耳机|用它陪伴你的每一夜晚安,竹林鸟·夜莺使用体验
- 玩偶|新纶新材:冬奥会吉祥物冰敦敦玩偶没有使用公司材料产品
- django|剪映电脑版的使用方法
- 自动驾驶|马斯克要开放自动驾驶给所有车企使用,和谷歌开源安卓然后断供华为是一个道理
- |改掉这些使用手机的不良习惯,让手机健康用上3年,还比别人新!
- 汽车|拼多多上1毛钱购买手机充电插头,使用过程中爆炸了?