CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测( 二 )


从上述示例来看 , 这两类方法从不同的角度观察了互联网虚假新闻 , 其捕捉的信息具有互补性 , 如果将它们结合起来 , 可以涵盖更多的情形 , 提高整体检测性能 。 然而 , 目前还没有工作考虑将这两种方法整合起来 。 在本文中 , 我们首次尝试“整合模式和事实信息的虚假新闻检测” 。 整合中最大的挑战在于 , 现实模型很难避免受到非偏好信息的干扰:一个基于模式信息的模型可能“记住”了某些事件相关的用词 , 一个基于事实信息的模型也可能因为格式的相似性(部分假新闻有模仿正规新闻写法的倾向)而被误导 。
CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测
文章图片
本文主要考虑了两个问题:
如何有效建模模式和事实信息这两种不同的偏好?
如何引导模型关注其偏好的信息 , 同时尽可能避免非偏好信息的干扰?
为此 , 本文提出了模型偏好感知的虚假新闻检测框架Pref-FEND(Preference-awareFakeNewsDetectionFramework) 。 该框架通过异构动态图卷积网络(HeterogeneousDynamicGCN)生成词项级模式偏好分布(PatternPreferenceMap)和事实偏好分布(FactPreferenceMap) , 并使用生成的分布引导对应偏好的检测模型 。 模型输出的偏好感知特征最终被融合 , 用于预测给定帖子是否是虚假新闻 。
2Pref-FEND
1.整体框架
给定待检测消息 , Pref-FEND首先根据预定义的词典或模型将P中的词项分为三组:风格词、实体词和其它词 。 这三组词被送入偏好学习器(PreferenceLearner) , 即异构动态图卷积网络 , 分别生成模式偏好分布和事实偏好分布 。 完整消息和模式偏好分布被一同送入基于模式信息的模型(Pattern-basedModel) , 产生偏好感知特征 。 类似地 , 和事实偏好分布被一同送入基于事实信息的模型(Fact-basedModel) , 产生特征 。 和拼接后经过最后的MLP层 , 即得到Pref-FEND对是否是假新闻的预测结果 。
CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测
文章图片
2.偏好分布生成
假设中有个词项 , 偏好分布被定义为一个含有个[0,1]内实数的序列 , 其中第个数表示第个词项被对应检测模型偏好的程度 。 本文中 , 我们希望通过基于图神经网络的方法得到模式偏好分布和事实偏好分布
由于偏好分布本质是一个词项级权重分配 , 故其所有偏好得分总和为1 。
2.1引入先验知识
尽管我们一直在提“模式信息”和“事实信息” , 动机案例也给出了对这两类信息具象的认识 , 但实践中仍然缺少一套广泛适用的操作步骤 , 来从文本中找出模式信息和事实信息 。 一种直接的方法便是直接从模型中学习 , 靠真假新闻分类标签“远程监督” , 端到端搞定 。 但这样做存在一定的过拟合风险:我们先前讨论的模型均为理想模型——基于模式便“坚决”基于模式 , 能够做到对事实信息的天然免疫 。 但实际中的模型难免数据集偏差造成的干扰 , 面对训练集偏差造成的捷径很难“抵抗诱惑” 。 因此 , 我们决定在端到端学习之外 , 加入先验知识 , 给偏好分布的生成提供一个好的起点 , 在此基础上针对两类方法的实际情况进行细调 。
模式信息往往体现在抽象表达要素上 , 如风格、情感等 。 我们将这类特征词统称为风格词(stylistictokens)作为模式信息先验 。 具体地 , 我们基于大连理工大学情感本体库[2]等公开资源 , 匹配了中的否定词、程度词、情感词、主张词、表情符、情绪本体词、标点符号、人称代词等 , 用这些词构成了风格词集合 。 而事实信息的体现更加直接:一个可以验证的说法一般都含有实体词(人造事实核查数据集FEVER的众包标注流程中有类似的规范要求) 。 因此 , 我们使用了百度LAC[3]和腾讯TexSmart[4]这两个公开工具提取了中的实体词 , 构成了实体词集合 。 不属于上述两个集合的词构成了其它词集合 。