CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测

CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测
文章图片
第30届ACM信息与知识管理国际会议(CIKM2021)将于11月1日至5日在线举行 。 本次会议共收到1251篇长文(FullPaper)和626篇短文(ShortPaper)投稿 , 其中271篇长文和177篇短文被大会接收 , 录取率分别为21.7%和28.3% 。
接收论文列表见:https://www.cikm2021.org/accepted-papers 。
本文将解读发表在CIKM2021的一篇主会长文 。 该工作提出了一种基于图神经网络的偏好感知框架 , 用于整合基于模式信息和事实信息的虚假新闻检测模型 , 实现两类模型的联合检测 。
CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测
文章图片
题目:IntegratingPattern-andFact-basedFakeNewsDetectionviaModelPreferenceLearning
作者:盛强*、张雪遥*、曹娟、钟雷(*同等贡献)
单位:中国科学院计算技术研究所、中国科学院大学
预印版:https://arxiv.org/abs/2109.11333(点击“阅读原文”可跳转)
1背景介绍
在过去的十多年中 , 社交媒体出现的虚假信息造成了政治、经济和社会层面的诸多危害 , 最近的例子莫过于2020年伴随COVID-19蔓延的“信息疫情”(infodemic) 。 在这种严峻的形势下 , 检测虚假新闻对维护可信的在线新闻生态至关重要 。
现有的自动虚假新闻检测方法主要利用内容(文本或图像)和社交上下文(如用户信息、群众反馈、传播模式等)区分虚假新闻与真实新闻 。 本文主要关注基于文本内容的虚假新闻检测 , 这些方法可以被大致分为两类:
基于模式信息:这类方法试图找出不同假新闻在呈现层面的共性模式(sharedpatterns) , 期望这些共性模式可以泛化到没有见过的假新闻上 。 例如 , 我们可能会发现假新闻会更多地使用叹号(尽管现实中单单“叹号比例”这一特征未必能有效区分真假新闻) , 那么当遇到叹号特别多的社交媒体新闻时 , 模型就会倾向于给出不可信的判断 。 这类方法比较像执勤警察的随机盘查 。 警察会根据自己的经验(不确切、非客观) , 去盘查有可疑迹象的路人 。 基于模式信息的方法可以在不依赖外部知识的情况下运行 , 一般速度较快 , 适合快速找出新发事件中的可疑信息 。
基于事实信息:这类方法引入了外部知识源 , 通过对在线百科、辟谣文章库或整个互联网进行检索 , 找出相关的证据文章(尽管不一定100%可靠和有效) , 通过参考这些“证据”来判断给定的新闻的真实性 。 这类方法更像是警方办案 , 需要通过搜查收集证据来完成“定罪” , 也更贴近人类事实核查员的操作步骤 。 基于事实信息的方法相对而言更加精准、客观 , 其参考证据可以作为结果的解释展示给用户 。
这两类模型的本质区别在于对文本线索的利用角度不同 , 即它们拥有不同的文本偏好 。 下图展示了一条关于“上海开通热线12331接受狗肉馆举报”的不实信息 。
CIKM 2021 | 假新闻有“两幅面孔”:整合模式和事实信息的虚假新闻检测
文章图片
理想情况下 , 基于模式信息的模型会更多地关注到这条消息的写法 , 比如频繁、连续地使用叹号 , 使用“好消息”或“¥500”这种容易吸引读者的字眼 , 而不关心这条消息中的新闻要素(如地点、事件等) 。 换言之 , 将上海换成北京 , 或狗肉换成猫肉 , 基于模式信息的模型应当保持预测的准确性 。
相反 , 基于事实信息的模型会关注到这段话究竟说了什么 , 而不关心这条消息是怎么写的 。 它需要利用其中的关键要素(如“上海”、“12331”、“狗肉馆”)来搜寻相关证据 , 并根据证据中提到的“12331不接受狗肉馆举报”[1] , 进行综合判断 。 即便这条消息平铺直叙 , 不使用情绪化的字眼 , 基于事实信息的模型也应当保持预测的准确性 。