百位学者署名的大模型综述研究被质疑“抄袭”,智源研究院官方发布致歉信
机器之心报道
机器之心编辑部
智源研究院表示:「对这一情况 , 研究院立即组织内部调查 , 确认部分文章存在问题后 , 已启动邀请第三方专家开展独立审查 , 并进行相关追责 。 」
昨天 , 一则有关综述研究涉嫌「抄袭」的消息引发了海内外学术圈的热议:
文章图片
宾夕法尼亚大学博士生、谷歌学生研究员DaphneIppolito在推特上表示 , 智源研究院一篇拥有100位作者署名的综述研究《ARoadmapforBigModel》涉嫌抄袭了多篇论文内容 , 其中就包括自己团队的一项研究《DeduplicatingTrainingDataMakesLanguageModelsBetter》 , 后者此前已被ACL2022接收 。
该事件迅速发酵 , 引起了社区广泛关注与讨论 。
针对质疑 , 4月13日 , 北京智源人工智能研究院发布了《关于“ARoadmapforBigModel”综述报告问题的致歉信》 , 并表示:「对这一情况 , 研究院立即组织内部调查 , 确认部分文章存在问题后 , 已启动邀请第三方专家开展独立审查 , 并进行相关追责 。 」
文章图片
智源研究院内部调查的初步结果如下:
1.该报告是一篇大模型领域的综述 , 希望尽可能涵盖国内外该领域的所有重要文献 , 由智源研究院牵头 , 负责框架设计和稿件汇总 , 并邀请国内外100位科研人员分别撰写了16篇独立的专题文章 , 每篇文章分别邀请了一组作者撰写并单独署名 , 共200页 。 报告发布后 , 根据反馈持续进行修改完善 , 到4月2日在arXiv网站上已经更新到第三版 。
【百位学者署名的大模型综述研究被质疑“抄袭”,智源研究院官方发布致歉信】2.4月13日 , 我们获悉谷歌研究员NicholasCarlini在个人博客上指出该报告抄袭了他们论文的数个段落 , 同时还有其他段落和语句抄袭其他论文 。 我们对此进行了逐项核查 , 经查重确认第2篇文章的第3.1节179个词 , 第8篇文章的第3.1节74个词、第12篇文章的第2.3节55个词、第14篇文章的第2节159个词、第16篇文章的第1节146个词与其他论文重复 , 应属抄袭 。 我们决定立即从报告中删除相应内容 , 报告修订版今天将提交arXiv进行更新 。 目前已通知所有文章的作者对所有内容进行全面审查 , 后续经严格审核后再发布新版本 。
3.智源作为该报告的组织者 , 理应对各篇文章的所有内容进行严格审核 , 出现这样的问题难辞其咎 。 对此我们深感自责 , 特别感谢学术界和媒体的朋友们帮助我们发现问题 。 我们将深刻吸取教训 , 整改科研管理和论文发表流程 , 希望各界朋友监督我们工作 。
涉嫌抄袭的细节
涉嫌被抄袭论文的作者之一NicholasCarlini表示:「我的一位合著者正在阅读BigModels论文 , 并注意到其中一些文本似乎很熟悉 , 在快速查看后 , 我们发现实际上有一堆文本是直接从我们的论文中复制而来的 。 」
目前 , 在「BigModel」这篇论文的arXiv页面 , 管理员已经标注了两篇文章具有较高的文本重合度 。
文章图片
在博客中 , 声称被抄袭的作者也做出了举证:「BigModels」抄袭了Carlini论文的参考和相关工作部分 。 如下所示 , 左侧是「BigModels」论文中的文本 , 右侧是原始论文中的相应文本 。 被「复制」的文本以绿色高亮显示:
文章图片
- 关键基因|中美学者克隆出提高籽粒产量关键基因
- PNAS新研究:剑桥学者发现,有些 AI 模型无法被计算
- B站开启青少年美育计划,34位艺术家、学者为青少年定制优质内
- 华为|614亿!孟晚舟升任董事长,华为“开仓放粮”,美国学者发出警告
- 本文转自:澎湃新闻“人类正在多极化博弈中经历着从未有过的剧变|真实之虚幻,虚拟之现实:19位学者探讨身份、价值与元宇宙
- 5G|英国电信炮轰“美5G联盟”,美国学者:任正非没有说错
- 本文转自:深圳商报企业掌门人、行业领袖、各界人士纷纷接力|百位读创体验官齐亮头像、共同抗疫
- 罕见:知名物理学者遭arXiv禁言并删稿,“科学辩论也要讲文明”?
- 体温高会折寿?温州大学学者发现体温比代谢率更会影响寿命
- 华为|行动还在继续?华为正式官宣,美国学者:要阻止任正非