人工智能预测RNA和DNA结合位点，以加速药物发现编辑|萝卜皮针对核酸大分子

编辑|萝卜皮
针对核酸大分子，特别是RNA的基于结构的药物设计（SBDD）是一个获得动力的研究方向，已经产生了几种FDA批准的化合物。与蛋白质类似， SBDD中RNA的关键组成部分之一是正确识别推定候选药物的结合位点。
RNA具有共同的结构组织，再加上这些分子的动态特性，使得识别小分子的结合位点变得具有挑战性。此外，需要基于结构的方法，因为仅序列信息不考虑核酸大分子的构象可塑性。深度学习有望解决结合位点检测问题，但需要大量的结构数据，与蛋白质相比，这对于核酸来说非常有限。
俄罗斯斯科尔科沃科技学院的研究人员，在一项研究中组建了一组约2000个核酸小分子结构，包括约2500个结合位点，比以前使用的大40倍左右的数据集，并展示了一个基于该结构数据集的深度学习方法BiteNetN ，以检测核酸结构中的结合位点。 BiteNetN使用任意核酸复合物进行操作，显示出最先进的性能，并且有助于分析不同的构象和突变变体。
该研究以「Structure-baseddeeplearningforbindingsitedetectioninnucleicacidmacromolecules」为题，于2021年11月26日发布在《NARGenomicsandBioinformatics》。

文章图片
RNA分子在许多细胞过程中至关重要，例如基因调控和细胞信息传递，因此代表了一类有前途的药理靶点。 RNA靶向药物发现活动探索了各种观点，包括DNAG-四链体稳定剂的设计、靶向核糖开关的抗生素、反义RNA和靶向RNA的抗病毒药物等等。扩展可成药基因组的RNA靶标，包括那些与「不可成药」蛋白质靶标或非编码microRNA相关的靶标，尤其令人感兴趣。
然而， RNA药物开发存在许多障碍，其中包括与低化学多样性和RNA结构的动态特性有关。与蛋白质类似， RNA分子高度结构化以形成结合位点，小分子可以通过这些位点调节它们。因此，需要高效的、结构特异性的RNA小分子配体结合位点检测器来推进RNA靶向药物的发现。
「例如，核酸DNA和RNA可以参与信号传递，我们可以针对它们所参与的信号传递或任何其他过程。对于不可治疗的蛋白质靶标，例如无序蛋白质或缺乏方便结合位点的蛋白质，这可能是一种有希望的策略。」该研究的首席研究员PetrPopov说，「然后还有身体外来的致病性RNA ，例如病毒，如SARS-CoV-2或HIV 。」
尽管有大量的蛋白质特异性方法，但用于预测RNA-小分子相互作用位点的方法数量非常有限，大致可分为基于知识的方法、经验方法和机器学习方法。基于知识的方法，例如InfoRNA ，在已知RNA-小分子结合位点的数据库中挖掘RNA基序。经验方法，例如Rsite、Rsite2或RBind ，依赖于RNA结构的简单几何特征，并寻找这些特征的极端作为结合位点的指标。
最近，科学家开发了一种机器学习方法RNAsite；它包含一个随机森林模型，该模型使用计算出的RNA的基于结构和基于序列的特征进行操作。使用深度学习有望改进RNA结合位点检测器；然而，由于可用的RNA结构数量相对较少，它受到了阻碍。
事实上，虽然最近用于蛋白质-小分子或蛋白质-肽结合位点检测的深度学习方法依赖于数千个示例的数据集，但RNAsite模型仅在60个RNA-小分子复合物上进行了训练。
在这项研究中，该团队展示了第一个基于结构的深度学习方法来预测核酸-小分子配体结合位点。为了克服小数据集的问题，研究人员考虑了RNA和DNA复合物、与晶体对称配对形成的交互界面、NMR模型和数据增强。设计组建了一个包含2000个核酸小分子结构的数据集，包括从蛋白质数据库（PDB）检索到的2500个结合位点接口。