大规模蛋白质翻译后修饰提取模型BioBERT,具有远程监督和置信度校准
编辑|萝卜皮
蛋白质-蛋白质相互作用(PPI)对正常的细胞功能至关重要 , 并且与许多疾病途径有关 。 一系列蛋白质功能由蛋白质相互作用通过翻译后修饰(PTM)介导和调节 。
然而 , 在IntAct等生物知识数据库中 , 只有4%的PPI使用PTM进行注释 , 主要通过人工管理进行 , 既不省时也不划算 。 研究人员的目标是通过使用深度学习的远程监督训练数据来帮助人类管理 , 从文献中提取PPI及其成对PTM来促进注释 。
墨尔本大学的研究人员使用IntActPPI数据库创建一个远程监督数据集 , 该数据集标注了相互作用的蛋白质对、它们相应的PTM类型以及来自PubMed数据库的相关摘要 。
他们训练了一组BioBERT模型(称为PPI-BioBERT-x10)以提高置信度校准;扩展了具有置信度变化的整体平均置信度方法的使用 , 以抵消类不平衡的影响 , 以提取高置信度预测 。
在测试集上评估的PPI-BioBERT-x10模型产生了适中的F1-micro41.3(P=58.1 , R=32.1) 。 然而 , 通过结合高置信度和低变化来识别高质量的预测 , 调整预测的精度 , 研究人员以100%的精度保留了19%的测试预测 。
他们在1800万份PubMed摘要上评估了PPI-BioBERT-x10 , 提取了160万个PTM-PPI预测 , 并过滤了大约5700个高置信度预测 。 在5700个中 , 对一个小的随机抽样子集的人工评估表明 , 尽管进行了置信度校准 , 但精度仍下降到33.7% , 并且即使进行了置信度校准 , 也凸显了超出测试集的通用性挑战 。
研究人员通过只包括与多篇论文相关的预测来规避这个问题 , 将精度提高到58.8% 。 在这项工作中 , 他们强调了基于深度学习的文本挖掘在实践中的好处和挑战 , 以及需要更加强调置信度校准以促进人工管理工作 。
该研究以「Large-scaleprotein-proteinpost-translationalmodificationextractionwithdistantsupervisionandconfidencecalibratedBioBERT」为题 , 于2022年1月4日发布在《BMCBioinformatics》 。
文章图片
关键的生物过程 , 例如信号级联和新陈代谢 , 受到蛋白质-蛋白质相互作用(PPI)的调节 , 这些相互作用通过修饰其他蛋白质以通过翻译后修饰(PTM)调节它们的稳定性或活性 。 PPI在大型在线存储库(例如IntAct和HPRD)中进行管理 。
然而 , 大多数PPI没有用函数注释 , 例如 , IntAct数据库有超过100,000个人类PPI , 但其中不到4000个用PTM注释 , 如磷酸化、乙酰化或甲基化 。 了解相互作用的蛋白质对之间PTM的性质对于研究人员确定网络扰动和下游生物学后果的影响至关重要 。
生物数据库中的PPI和PTM通常是手动管理的 , 这需要训练有素的管理人员 , 同时也很耗时 。 科学家还强调了维护手动管理数据库、确保它们是最新的以及手动管理的经济方面的其他挑战 。 因此 , 采用自动策展方法对于这项工作的可持续性至关重要 。
研究人员通过文本挖掘PubMed摘要来提取PTM , 提取蛋白质对及其相应的PTM 。 给定输入期刊摘要 , 输出是形式的三元组 , 其中Protein1和Protein2是蛋白质的Uniprot标识符 。 由于他们的训练数据源不包含蛋白质之间关系的方向 , 所以不考虑Protein1和Protein2之间的关系方向 , 即等价于 。
研究人员还旨在帮助PTM-PPI的人工管理 , 因此他们通过将机器学习模型应用于1800万个PubMed摘要以提取PTM-PPI三元组来评估机器学习模型的泛化程度 。 在这里 , 研究人员使用置信度校准作为一种机制来理解通用性 , 以了解预测何时可以提取高质量的预测 。 该团队相信他们是第一个研究使用具有深度学习和远程监督的NLP进行大规模PTM-PPI提取的实际适用性和挑战的团队 。
- 零增加资源!京东云成功抗住虎年春晚世界最大规模互动流量洪峰
- 看不懂代码?AI给你做翻译,说人话的那种
- 翻译|新疆建设“多语种智能互译语音云平台”汉维哈多语种法律文书秒互译
- 翻译|MIUI 13特别版上线,优化系统稳定性和相机拍照效果
- 翻译|问题出在哪呢?一年之内小米跌破发行价,阿里巴巴股价腰斩!
- 单片芯片集成全同量子光源阵列创最大规模,他“疯狂”推动量子计算落地
- 阿里巴巴|阿里巴巴挂出巨幅代码春联:网友上阵各路“神翻译”
- 叮咚买菜|钱大妈集体关店,叮咚买菜大规模裁员,生鲜电商为何节节败退?
- 本文转自:中国数字科技馆蛋白质 来源:pixabay所有的生物都离不开蛋白质|研究人员用人工智能设计全新的蛋白质结构
- 苹果iCloud服务器大规模宕机!多国用户受影响