人工智能预测RNA和DNA结合位点,以加速药物发现

编辑|萝卜皮
针对核酸大分子 , 特别是RNA的基于结构的药物设计(SBDD)是一个获得动力的研究方向 , 已经产生了几种FDA批准的化合物 。 与蛋白质类似 , SBDD中RNA的关键组成部分之一是正确识别推定候选药物的结合位点 。
RNA具有共同的结构组织 , 再加上这些分子的动态特性 , 使得识别小分子的结合位点变得具有挑战性 。 此外 , 需要基于结构的方法 , 因为仅序列信息不考虑核酸大分子的构象可塑性 。 深度学习有望解决结合位点检测问题 , 但需要大量的结构数据 , 与蛋白质相比 , 这对于核酸来说非常有限 。
俄罗斯斯科尔科沃科技学院的研究人员 , 在一项研究中组建了一组约2000个核酸小分子结构 , 包括约2500个结合位点 , 比以前使用的大40倍左右的数据集 , 并展示了一个基于该结构数据集的深度学习方法BiteNetN , 以检测核酸结构中的结合位点 。 BiteNetN使用任意核酸复合物进行操作 , 显示出最先进的性能 , 并且有助于分析不同的构象和突变变体 。
该研究以「Structure-baseddeeplearningforbindingsitedetectioninnucleicacidmacromolecules」为题 , 于2021年11月26日发布在《NARGenomicsandBioinformatics》 。
人工智能预测RNA和DNA结合位点,以加速药物发现
文章图片
RNA分子在许多细胞过程中至关重要 , 例如基因调控和细胞信息传递 , 因此代表了一类有前途的药理靶点 。 RNA靶向药物发现活动探索了各种观点 , 包括DNAG-四链体稳定剂的设计、靶向核糖开关的抗生素、反义RNA和靶向RNA的抗病毒药物等等 。 扩展可成药基因组的RNA靶标 , 包括那些与「不可成药」蛋白质靶标或非编码microRNA相关的靶标 , 尤其令人感兴趣 。
然而 , RNA药物开发存在许多障碍 , 其中包括与低化学多样性和RNA结构的动态特性有关 。 与蛋白质类似 , RNA分子高度结构化以形成结合位点 , 小分子可以通过这些位点调节它们 。 因此 , 需要高效的、结构特异性的RNA小分子配体结合位点检测器来推进RNA靶向药物的发现 。
「例如 , 核酸DNA和RNA可以参与信号传递 , 我们可以针对它们所参与的信号传递或任何其他过程 。 对于不可治疗的蛋白质靶标 , 例如无序蛋白质或缺乏方便结合位点的蛋白质 , 这可能是一种有希望的策略 。 」该研究的首席研究员PetrPopov说 , 「然后还有身体外来的致病性RNA , 例如病毒 , 如SARS-CoV-2或HIV 。 」
尽管有大量的蛋白质特异性方法 , 但用于预测RNA-小分子相互作用位点的方法数量非常有限 , 大致可分为基于知识的方法、经验方法和机器学习方法 。 基于知识的方法 , 例如InfoRNA , 在已知RNA-小分子结合位点的数据库中挖掘RNA基序 。 经验方法 , 例如Rsite、Rsite2或RBind , 依赖于RNA结构的简单几何特征 , 并寻找这些特征的极端作为结合位点的指标 。
最近 , 科学家开发了一种机器学习方法RNAsite;它包含一个随机森林模型 , 该模型使用计算出的RNA的基于结构和基于序列的特征进行操作 。 使用深度学习有望改进RNA结合位点检测器;然而 , 由于可用的RNA结构数量相对较少 , 它受到了阻碍 。
事实上 , 虽然最近用于蛋白质-小分子或蛋白质-肽结合位点检测的深度学习方法依赖于数千个示例的数据集 , 但RNAsite模型仅在60个RNA-小分子复合物上进行了训练 。
在这项研究中 , 该团队展示了第一个基于结构的深度学习方法来预测核酸-小分子配体结合位点 。 为了克服小数据集的问题 , 研究人员考虑了RNA和DNA复合物、与晶体对称配对形成的交互界面、NMR模型和数据增强 。 设计组建了一个包含2000个核酸小分子结构的数据集 , 包括从蛋白质数据库(PDB)检索到的2500个结合位点接口 。