如何信任你的“谣言粉碎机”?可解释事实检验算法研究|AAAI 2022( 二 )


, 并事实上将其转化为最终标签与短语级别标签之间的一种逻辑约束 。
可以观察到以下逻辑规则:
如果一个陈述是不符合事实的(REF) , 那么其中至少存在一个短语不符合事实;
如果一个陈述是符合事实的(SUP) , 那么其中所有短语都应该符合事实;
如果一个陈述是无法验证的(NEI) , 那么应该不存在不符合事实的短语 , 并且其中至少一个短语是无法验证的 。
这种逻辑规则可以被形式化地表示为:
其中
分别对应于

表示验证结果 。
用概率软化上述逻辑规则:
其中


这样通过概率聚合得到的结果
就包含了上述的逻辑知识 。 作者将其作为老师模型(teachermodel)去指导
, 即进行逻辑知识蒸馏: 。
最终 , 模型的优化目标包含两部分: 。
构造局部前提
为了实现上述短语级别的验证 , 需要解决两个问题:
找到陈述中需要被验证的短语;
在知识库中找到足以检验这些短语的信息 。 这些都可以在训练上述验证模型之前离线完成 。
针对第一个问题 , 作者利用现有的NLP解析工具去识别给定陈述中的命名实体 , 名词短语 , 动词短语以及形容词短语 。 例如给定陈述「KungFuPandawasreleasedin2016.」 , 我们可以将其拆分为「KungFuPanda」(命名实体) , 「released」(动词短语)以及「2016」(名词短语) 。
针对第二个问题 , 作者将其建模为一种阅读理解(MRC)任务 。 给定陈述和短语 , 首先对给定的短语构造引导问题 , 如「KungFuPandawasreleasedin[MASK].」和「WhenwasKungFuPandareleased?」 , 并利用MRC模型从证据集中获取到对应的事实部分 , 如证据集中存在描述「KungFuPandapremieredintheUnitedStatesonJune6,2008.」 , 那么我们希望模型能够回答出「2008」 。
将这个事实回填到陈述的对应位置后 , 就可以得到一个短语对应的局部前提(localpremise)
, 如「JoeBidenwonthe2020election.」 。 具体地 , 利用
的数据去自监督地构造数据并训练这个生成式MRC模型 。
事实验证
得到了陈述的局部前提 , 就可以利用神经网络参数化

这两个分布以用于最终的事实验证 。
利用预训练语言模型来编码局部信息(陈述与局部前提拼接为
)和全局信息陈述与证据集拼接
) , 并得到了


得到全局与局部的信息表示后 , 分别利用全连接网络来构建最终的


接收标签
的向量表示和全局信息
与局部信息
作为输入 , 输出
的预测概率分布 。
接收隐变量
与全局与局部信息作为输入 , 输出
的预测概率分布 。 在预测阶段 , 通过随机初始化变量
并迭代地解码

直至收敛 , 至此 , 就能够在预测最终标签的同时 , 针对给定陈述中不同的短语进行细粒度的验证 。
主要实验结果
作者在事实验证数据集FEVER上开展了实验 , 并采用官方的LabelAccuracy以及Feverscore作为评估指标 , 整体结果如表1所示 。 对比LOREN与KGAT[2] , 可以发现在相同量级的模型下 , LOREN取得了显著的效果提升 。
虽然DREAM[3]与LOREN在检索阶段采用了不同的策略 , 但是LOREN在最终指标上的提升也表明了该框架的优势 。 然而LisT5[4]因为其强大的预训练模型(T5-3B , 十倍于RoBERTa-large) , 在测试集上的效果要明显优于其他模型 。
如何信任你的“谣言粉碎机”?可解释事实检验算法研究|AAAI 2022
文章图片
表1:在FEVER数据及上的整体表现