CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测( 三 )


2.2动态图卷积网络
基于上述三个集合 , 我们需要做到:(1)根据风格词和实体词 , 为其它词生成偏好得分;(2)根据语境调整所有词项的偏好得分 。 为做到上述两点 , 我们需要让文本中所有词项与其它词项尽可能产生联系和交互 。 此时我们想到了图神经网络:将词项作为节点 , 边权就可以代表词项之间联系的紧密程度 。 如果边权是动态可学习的 , 那么这种紧密程度就可以根据语境进行调整 。 此外 , 我们希望风格词和实体词在交互中能“知晓并保持自身身份” , 需要把分组信息体现在图上学习中 。
为此 , 我们基于已有工作[5] , 设计了异构动态图卷积网络(HeterogeneousDynamicGCN , HetDGCN):每一层图卷积操作都是分组操作的 , 体现了异构性;词项之间的连边权重会根据最新的表示进行调整 , 体现了动态性 。
CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测
文章图片
我们使用预训练语言模型获取了词项表达 , 用于初始化节点表示 。 连边权重的初始化使用了余弦相似度(约束到[0,1]区间) 。 此外 , 我们对图的关联矩阵进行了行规范化并计算了度矩阵 。
异构性:假设是类型(即风格、实体、其它)节点第层的表示 , 那么第层特征为
其中是规范化关联矩阵的子矩阵 , 包含所有节点与类型节点的关联度 。
动态性:计算得到第层特征后 , 我们使用以下公式更新关联矩阵
其中是可学习矩阵 , 用于将特征转换为关联矩阵更新量 , 为了保证关联度的稳定性 , 我们使用了移动平均来更新关联矩阵 。
2.3读出偏好分布
在经过层HetDGCN计算后 , 我们得到关联矩阵 。 我们期望该矩阵可以反映各个词项之间在该上下文中的关联程度 。 对于第个节点 , 其模式偏好得分是该节点与所有非实体词节点关联度之和
类似地 , 其事实偏好得分是与所有非风格词节点的关联度之和
最终 , 约束得到的偏好得分序列和为1 , 即得到我们需要的模式偏好分布和事实偏好分布
3.偏好感知的联合虚假新闻检测
CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测
文章图片
Pref-FEND使用注意力机制将偏好分布信息注入检测模型中 。 基于模式信息的模型的基础结构如一般的文本分类模型相同(该机制不难扩展到更复杂的情形中) , 我们只需要将BERT或LSTM的输出使用模式偏好分布加权求和 , 得到偏好感知向量
基于事实信息的模型输入为和检索得到的相关文档(文档序列表示为) , 我们使用事实偏好分布对的表示进行加权
之后将该向量与文档序列表示一同送入模型的推理模块(该模块的实现大多参照NLI任务)
最后 , 将模式分支得到的和事实分支得到的拼接通过最后的分类器(这里使用MLP实现) , 即得到联合检测的预测值
4.训练策略
在训练中 , 我们使用3个损失函数 。 首先使用了常用的交叉熵 , 作为二分类问题的监督信号
此外 , 由于模式偏好与事实偏好应当是不太一致的 , 我们最小化两个偏好分布之间的余弦相似度 , 即
最后 , 我们设计了一个“反向监督信号” , 即将ground-truth标签进行翻转 , 同时交换输入两种偏好分布 。 该函数希望检测模型在收到与自身偏好“背道而驰”的偏好分布时 , 能够表现得更差
其中 , 预测值 。 和分别是交换偏好分布后两种检测模型输出的“反向”偏好感知向量 。
最后 , 我们最小化上述三个损失函数的加权和
3实验
1.数据集
由于当前的数据集无法同时提供社交媒体帖子和相关文章 , 我们基于已有资源整合构建了两个数据集 , 分别根据帖子来源命名为Weibo和Twitter 。 在Weibo数据集中 , 我们使用了Weibo-20[6]中的微博文本和检测已核查消息任务数据[7]中的辟谣文章作为相关文档 。 同时我们还使用百度新闻搜索结果扩充了相关文档集 。 经过后处理的数据集包含6,362条微博和17,849篇文章 。 在Twitter数据集中 , 我们合并了三篇文章中的数据(Shaaretal.[8] , VoandLee[9]和PHEME[10])并使用谷歌新闻接口对相关文档进行了扩充 , 得到了14,709条推文和12,419篇相关文章 。