科学家使用Summit超级计算机和深度学习来预测基因组规模的蛋白质功能

编辑|萝卜皮
随着高性能计算(HPC)的出现 , 促使计算生物学成为不断创新和加速成熟的科学学科 。 近年来 , 机器学习领域也从HPC的实践应用中受益匪浅 。
研究人员使用ORNL的Summit超级计算机以及Google的DeepMind和乔治亚理工学院开发的工具 , 以加快准确识别生物体整个基因组中蛋白质结构和功能的速度 。 该团队最近发布了高性能计算工具包及其在Summit上的部署的详细信息 。
他们提出了一种新的HPC方案 , 它结合了各种机器学习方法 , 用于在全基因组规模上 , 基于结构对蛋白质进行功能注释 。
该方案广泛使用深度学习 , 并为针对蛋白质组学数据等高通量数据训练高级深度学习模型的最佳实践提供计算见解 。 研究人员展示了该方案目前支持的方法 , 并详细介绍了该方案的未来任务 , 包括使用SAdLSA进行大规模序列比较和使用AlphaFold2预测蛋白质三级结构 。
该研究以「High-PerformanceDeepLearningToolboxforGenome-ScalePredictionofProteinStructureandFunction」为题 , 于2021年11月15日在《2021IEEE/ACM高性能计算环境中的机器学习研讨会(MLHPC)》上发布 , 于2021年12月27日添加在《IEEEXplore》 。
这些强大的计算工具是解决生物学重大挑战的重大飞跃
将遗传密码转化为有意义的功能 , 蛋白质是解决这一挑战的关键组成部分 。 它们也是解决有关人类、生态系统和地球健康的许多科学问题的核心 。 作为细胞的主要构成 , 蛋白质几乎驱动着生命所必需的每一个过程——从新陈代谢到免疫防御再到细胞之间的交流 。
「结构决定功能」是蛋白质研究领域的格言;复杂的3D形状指导着它们如何与其他蛋白质相互作用以完成细胞的工作 。
基于组成DNA的字母A、C、T和G的长串核苷酸来理解蛋白质的结构和功能 , 长期以来一直是生命科学的一个瓶颈 , 因为研究人员需要依靠有根据的猜测和艰苦的实验来验证结构 。
「我们现在正在处理天体物理学家处理的大量数据 , 这一切都是因为基因组测序革命 。 」ORNL研究员AdaSedova说 , 「我们希望能够使用高性能计算来获取测序数据并提出有用的推论来缩小实验范围 。 我们想快速回答诸如『这种蛋白质有什么作用 , 它如何影响细胞?』之类的问题 。 我们如何利用蛋白质来实现目标 , 例如制造所需的化学品、药物和可持续燃料 , 或者设计有助于减轻气候变化影响的生物体?」
科学家使用Summit超级计算机和深度学习来预测基因组规模的蛋白质功能
文章图片
图示:SAdLSA概述 , 一种用于蛋白质序列比对的深度学习算法 。 (来源:论文)
该研究小组专注于对DOE任务至关重要的生物 。 他们对四种微生物的完整蛋白质组(生物体基因组中编码的所有蛋白质)进行了建模 , 每种微生物大约有5,000种蛋白质 。 已发现其中两种微生物可产生制造塑料的重要材料 。 另外两种已知会分解和转化金属 。 结构数据可以为合成生物学的新进展和减少汞等污染物在环境中传播的策略提供信息 。
该团队还生成了在泥炭藓中起作用的24,000种蛋白质的模型 。 泥炭藓在泥炭沼泽中储存大量碳方面发挥着关键作用 , 泥炭沼泽的碳含量比世界上所有森林都多 。 这些数据可以帮助科学家确定哪些基因在增强泥炭藓吸收碳和抵御气候变化的能力方面最重要 。
加速科学发现
为了寻找使泥炭藓能够耐受升高的温度的基因 , ORNL科学家首先将其DNA序列与模式生物拟南芥进行比较 , 拟南芥是一种经过彻底研究的芥菜科植物物种 。
「泥炭藓与该模型相差约5.15亿年 。 」ORNLLianeB.Russell研究员BryanPiatkowski说 , 「即使对于与拟南芥关系更密切的植物 , 我们也没有很多关于这些蛋白质如何表现的经验证据 。 通过将核苷酸序列与模型进行比较 , 我们只能推断出这么多的功能 。 」