大规模蛋白质翻译后修饰提取模型BioBERT,具有远程监督和置信度校准( 二 )


研究人员专注于提取PTM , 包括磷酸化、去磷酸化、甲基化、泛素化、去泛素化和乙酰化(这些PTM是根据训练数据的可用性选择的) 。 他们使用远程监督方法创建一个训练数据集 , 使用IntAct作为源知识库从PubMed摘要中提取PTM-PPI三元组 。
他们训练了一组BioBERT模型来改进神经置信度校准 。 然后 , 将经过训练的模型应用于1800万份PubMed摘要 , 以提取PPI对及其相应的PTM函数;并尝试使用神经置信度校准技术来确保高质量的预测 , 以增强和促进人类管理工作 。
通过深度学习提取蛋白质相互作用的相关工作
用于评估文本挖掘方法的PPI提取数据集(例如AIMed和BioInfer)在十多年来(自2007年以来)一直保持不变 , 并且专注于提取蛋白质相互作用 , 而不是它们之间PTM相互作用的性质 。 这些数据集还被用于评估最新的机器学习方法 , 包括蛋白质对提取中的深度学习 。
大规模蛋白质翻译后修饰提取模型BioBERT,具有远程监督和置信度校准】然而 , 在使用AIMed和BioInfer数据集的基准测试方法的有限背景下 , 最新的深度学习趋势似乎在PPI管理中并不广泛流行 。 使用文本挖掘和基于规则的方法的自动PPI管理尝试似乎更普遍 。
大规模蛋白质翻译后修饰提取模型BioBERT,具有远程监督和置信度校准
文章图片
PPI-BioBERT-x10上测试和验证集的混淆矩阵 。
STRINGv11是最受欢迎的PPI数据库之一 , 它使用文本挖掘作为策展方法 。 自STRINGv9.1以来 , 他们的文本挖掘管道基本保持不变 。 STRINGv9.1使用基于加权PPI共现规则的方法 , 其中权重取决于蛋白质对是否一起出现在同一文档、同一段落或同一句子中 。 即使训练数据有限 , 基于规则的方法也可能非常有效 , 具体取决于任务 。
将STRINGv11数据库中的交互单元定义为「功能关联 , 即两种蛋白质之间的联系 , 它们共同促成特定的生物学功能」 。 这个定义允许基于共现规则的方法非常有效 , 即如果一个蛋白质对经常在文本中同时出现 , 那么这对很可能是相关的 。
大规模蛋白质翻译后修饰提取模型BioBERT,具有远程监督和置信度校准
文章图片
测试和大规模摘要与训练集的PTM余弦相似性 。
iPTMnet从各种手动管理的数据库(例如HPRD和PhosphoSitePlus以及文本挖掘资源)中整合有关PPI和PTM的信息 。 对于文本挖掘 , iPTMnet使用RLIMS-P和eFIP来自动管理酶-底物-位点关系 。 这些工具使用基于规则的方法 , 使用文本模式来提取PTM中涉及的蛋白质 。
2019年11月的iPTMnet统计数据表明 , 使用RLIMS-P策划的酶-底物对总数少于1,000对 。 这个适度的数字突出了使用文本模式的主要挑战:虽然它们可以以相当高的精度提取关系 , 但它们对于如何在文本中描述PPI关系的变化并不稳健 。 因此 , 研究人员探索了基于机器学习的方法 , 这些方法能够提取更多的关系 。
使用深度学习自动提取PPI可能是有益的 , 因为它有可能从各种文本中提取PPI , 其中PPI关系的描述方式无法通过手动制作的基于规则的系统轻松捕获 。
大规模蛋白质翻译后修饰提取模型BioBERT,具有远程监督和置信度校准
文章图片
训练、测试、大规模预测中的PTM常用词 。
然而 , 深度学习需要大量的训练数据 。 确保预测质量的模型的通用性是其广泛采用从文本中自动提取PPI关系的关键 。 大规模提高预测质量需要专注于减少误报 , 以最大限度地减少对现有知识库条目的破坏 , 因此 , 减少低质量预测的置信度校准方法成为大规模文本挖掘的关键步骤 。
置信度校准是预测代表真实正确性的概率估计的问题 , 在这里 , 研究人员使用置信度校准来了解预测何时可能正确 , 并将其用作改进泛化的机制 。 通用性的方面在很大程度上仅限于对测试集的评估 , 而使用测试集性能作为现实世界性能的代理的局限性在以前的研究中受到了挑战 。