物理学家使用人工智能来寻找迄今为止最复杂的蛋白质结

编辑|萝卜皮
计算机人工智能系统AlphaFold最近预测了数万种蛋白质的以前未知的三维结构 。
美因茨约翰内斯·古腾堡大学(JGU)的研究团队专注于具有高置信度分数的子集 , 研究人员通过算法分析这些预测 , 发现蛋白质骨架表现出罕见的拓扑复杂性 , 即打结 。
其中 , 研究人员发现了一个71-结 , 这是迄今为止在蛋白质中发现的最复杂的拓扑结 , 以及几个由两个甲基转移酶或碳酸酐酶结构域组成的六交叉复合结 , 每个结构域都包含一个简单的三叶结 。 这些深深嵌入的复合结显然是通过基因复制和打结二聚体的相互连接而发生的 。
另外 , 该团队还报告了两个新的五交叉结 , 包括第一个51-结 。 该工作分析的结构列表构成了未来实验研究的基础 , 以确认这些新型打结拓扑并探索其复杂的折叠机制 。
该研究以「AlphaFoldpredictsthemostcomplexproteinknotandcompositeproteinknots」为题 , 于2022年7月13日发布在《ProteinScience》 。
物理学家使用人工智能来寻找迄今为止最复杂的蛋白质结
文章图片
谷歌DeepMind开发的人工智能(AI)系统AlphaFold两次主导蛋白质结构预测技术(CASP)的关键评估 。 AlphaFold2是一个深度学习系统 , 它结合了基于蛋白质结构的进化、物理和几何约束的训练程序 。 它的特点是预测的迭代细化 , 并允许使用自蒸馏和自估计准确性从未标记的蛋白质序列中学习 , 以使用一级结构和同源物的对齐序列直接预测给定蛋白质的所有重原子的3D坐标 。
AlphaFold2目前已经预测了数十万种蛋白质结构 , 其中大部分不包含在蛋白质数据库(PDB)中 , 该数据库主要存档实验确定的结构 。 因此 , AlphaFold的预测数据库可能具有巨大的价值 , 特别是对于研究不常见但仍与了解蛋白质折叠潜在机制的复杂性具有高度相关性的蛋白质现象 。 对于在其多肽骨架中包含拓扑结的蛋白质 , 会出现一个特别令人着迷的现象 , 即从两端拉出后不会完全解开的蛋白质 。
在过去的二十年中 , 仅发现了大约20种不同的含有结的蛋白质家族 。 然而 , 打结的蛋白质对蛋白质折叠和进化提出了挑战 。 模拟算法经常高估蛋白质的打结概率 , 因为后者低于随机链的打结概率 。
此外 , 同源物之间的蛋白质拓扑结构通常相似 , 这意味着在进化中密切相关的蛋白质中往往会保留打结的折叠 。 由于这些原因 , 并且由于天然蛋白质之间打结的罕见性 , 在预测蛋白质结构的庞大新数据库中可能存在打结拓扑结构引起了人们的浓厚兴趣 。
目前 , 在蛋白质中发现的最复杂的结是单个结 , 在任何投影到平面上都有六个基本交叉点;尚未观察到复合结 。
JGU团队搜索了整个AlphaFold2数据库 , 包括「模式生物蛋白质组」、「Swiss-Prot」和「全球健康蛋白质组」数据集 , 以寻找包含以前未知的深结的拓扑复杂蛋白质 。 研究人员从分析中排除了那些具有较低置信度得分(600aa)的蛋白 , 其中预测的准确性和实验验证结构的能力可能受到限制 。 基于这种搜索和目视检查 , 该团队已经确定了第一个71-结(在平面上的任何投影中至少有七个交叉点)以及生成31#31复合结的可能进化机制 。
复合结的产生机制
研究人员通过调查发现了9个以前未知的复合结案例 。 这些都是两个基本上独立的三叶结存在于一个较长的蛋白质链中的例子 。
于是他们提出了一种基于基因复制和打结同源二聚体互连来生成这种复合结的新机制 。 有趣的是 , 这种机制类似于用于创建第一个人工蛋白质结的策略 , 其中未打结的二聚体被「连接」以形成三叶草 。