token|中国力量在人工智能顶会崛起，这枚NLP“金牌”奥妙何在？ ai

文章插图

作者 | 青暮
以学术界为主力军的中国AI研究力量正在悄然变化，工业界的作用愈发凸显，与学术界一起形成双轮驱动之势。
伦敦帝国理工学院 Marek Rei 教授对ML&NLP;相关会议论文的统计显示，自2012年至2020年期间，美国以近4000篇论文的数量遥遥领先，中国、英国、德国和加拿大分别名列第二至五位。
美国科技公司在各大人工智能顶会上格外强势，微软和谷歌排名前二，IBM和Facebook也名列前十；与此形成鲜明反差的是，中国AI研究界则由学术机构当家，仅清华和北大跻身前十，分别排名第八和第九位。

文章插图

但是在AI技术应用火热的推动下，中国科技企业也逐渐从“辅助角色”进化为中坚力量。在刚刚结束的NLP顶会ACL 2021上，中国的论文投稿数量已经大幅超越美国，共有 1239 篇论文投稿来自中国大陆，其中 251 篇被接收，接收率 20.3%，工业界在其中出力甚多。
更值得欣喜的是，字节跳动AI Lab的词表学习方案VOLT赢得“最佳论文”奖项。这是ACL举办59年以来，中国团队第二次获得会议最高荣誉，上一次是由中科院计算所研究员冯洋获得ACL 2019年最佳长论文奖。此外，香港中文大学与腾讯AI Lab的合作论文成功入选“杰出论文”。
本次我们采访到了字节跳动AI Lab获奖论文作者，向读者介绍他们在ACL 2021上的工作。

NLP的华人力量
字节跳动获奖论文“Vocabulary Learning via Optimal Transport for Machine Translation”提出了VOLT方法，能以非常低的代价学习词表，在机器翻译上取得了更好的性能。而词表几乎可以用于所有NLP任务，团队也在积极推动VOLT在其他NLP任务上的应用。
另外这项工作是从经济学和数学中获取灵感，从而给出了一个可行的词表学习方案。该论文第一作者许晶晶说：“我们给出了基于最大边际效应的一种可能的解释，和把词表学习建模成一个最优运输问题的全新想法。”

文章插图

论文地址：https://arxiv.org/abs/2012.15671
项目地址：https://github.com/Jingjing-NLP/VOLT
许晶晶于2015年进入北京大学电子工程与计算机科学学院，攻读博士学位，在计算语言学教育部重点实验室跟随孙栩教授做研究。
2021年2月，也就是五年后，AAAI首次评选“学术新星”（New Faculty Highlight），许晶晶成功入选，是入选者中唯一的中国机构学者。
回首五年前，许晶晶认为自己非常幸运，刚进入AI领域的时候，恰好就是自然语言处理从传统的浅层模型走向深度模型的过渡点。“对于NLP领域而言，深度学习在当时还是一种比较新的方法，入学的时候比较幸运赶上了深度学习在自然语言处理应用的浪潮”。
今年中国团队再次获得ACL最高荣誉，但光芒的背后，是一步一步的扎实积累。“最近几年华人在NLP领域的进步是非常大的。在15年的时候，对于一家中国研究机构来说，可能一年中一篇ACL，就是非常了不起的事情。随着时代的进步，华人的名字开始越来越多地出现在会议上，这是一个可喜的进步。相信在不久的将来，华人也可以做出很多可以引领整个时代潮流的工作。”许晶晶说道。

来自经济学和数学的启发
许晶晶对自然语言处理（NLP）的基础研究比较感兴趣，而词表又是自然语言处理的基础组件。