百位学者署名的大模型综述研究被质疑“抄袭”，智源研究院官方发布致歉信机器之心报道机器之心编辑部

机器之心报道
机器之心编辑部
智源研究院表示：「对这一情况，研究院立即组织内部调查，确认部分文章存在问题后，已启动邀请第三方专家开展独立审查，并进行相关追责。」
昨天，一则有关综述研究涉嫌「抄袭」的消息引发了海内外学术圈的热议：

文章图片
宾夕法尼亚大学博士生、谷歌学生研究员DaphneIppolito在推特上表示，智源研究院一篇拥有100位作者署名的综述研究《ARoadmapforBigModel》涉嫌抄袭了多篇论文内容，其中就包括自己团队的一项研究《DeduplicatingTrainingDataMakesLanguageModelsBetter》，后者此前已被ACL2022接收。
该事件迅速发酵，引起了社区广泛关注与讨论。
针对质疑， 4月13日，北京智源人工智能研究院发布了《关于“ARoadmapforBigModel”综述报告问题的致歉信》，并表示：「对这一情况，研究院立即组织内部调查，确认部分文章存在问题后，已启动邀请第三方专家开展独立审查，并进行相关追责。」

文章图片
智源研究院内部调查的初步结果如下：
1.该报告是一篇大模型领域的综述，希望尽可能涵盖国内外该领域的所有重要文献，由智源研究院牵头，负责框架设计和稿件汇总，并邀请国内外100位科研人员分别撰写了16篇独立的专题文章，每篇文章分别邀请了一组作者撰写并单独署名，共200页。报告发布后，根据反馈持续进行修改完善，到4月2日在arXiv网站上已经更新到第三版。
【百位学者署名的大模型综述研究被质疑“抄袭”，智源研究院官方发布致歉信】2.4月13日，我们获悉谷歌研究员NicholasCarlini在个人博客上指出该报告抄袭了他们论文的数个段落，同时还有其他段落和语句抄袭其他论文。我们对此进行了逐项核查，经查重确认第2篇文章的第3.1节179个词，第8篇文章的第3.1节74个词、第12篇文章的第2.3节55个词、第14篇文章的第2节159个词、第16篇文章的第1节146个词与其他论文重复，应属抄袭。我们决定立即从报告中删除相应内容，报告修订版今天将提交arXiv进行更新。目前已通知所有文章的作者对所有内容进行全面审查，后续经严格审核后再发布新版本。
3.智源作为该报告的组织者，理应对各篇文章的所有内容进行严格审核，出现这样的问题难辞其咎。对此我们深感自责，特别感谢学术界和媒体的朋友们帮助我们发现问题。我们将深刻吸取教训，整改科研管理和论文发表流程，希望各界朋友监督我们工作。
涉嫌抄袭的细节
涉嫌被抄袭论文的作者之一NicholasCarlini表示：「我的一位合著者正在阅读BigModels论文，并注意到其中一些文本似乎很熟悉，在快速查看后，我们发现实际上有一堆文本是直接从我们的论文中复制而来的。」
目前，在「BigModel」这篇论文的arXiv页面，管理员已经标注了两篇文章具有较高的文本重合度。

文章图片
在博客中，声称被抄袭的作者也做出了举证：「BigModels」抄袭了Carlini论文的参考和相关工作部分。如下所示，左侧是「BigModels」论文中的文本，右侧是原始论文中的相应文本。被「复制」的文本以绿色高亮显示：

文章图片