大规模蛋白质翻译后修饰提取模型BioBERT,具有远程监督和置信度校准( 三 )


创建具有细粒度注释的黄金标准训练数据 , 是一项手动的劳动密集型任务 , 并且是将机器学习应用于新领域或任务的限制因素 。 能够利用一个或多个现有数据源是在新领域或新任务中使用机器学习的关键 。 远程监督利用现有的知识库 , 例如IntAct , 而不是注释新数据集 。
然而 , 使用远程监督数据集有两个主要限制:(a)噪声标签需要降噪技术来提高标签质量(b)它们需要生成负样本 , 因为数据库通常只包含关系的正样本 。