token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?( 三 )


MUV可以理解成为信息熵对词表大小的负一阶导数,也即是我们在逐个增加token来构建词表的时候,每增加一定量的token导致的信息熵增益。我们的目标,就是要在巨大的词表空间中寻找MUV的最高值。
这样就可以把词表学习转化为搜索具有最大MUV分数的词表问题。为了解决该问题,作者提出了一种基于最优运输的方案。
为了便于大家更方便地理解最优运输,这里对最优运输先做一个简单的回顾。
大约250年前,法国数学家蒙日在其作品中对这类问题进行了严格分析,下面是一个比较直观的例子。
假设在战争中,我方有一些前线(蓝色星星)发出了需要增兵的信号,而我们的士兵分散在不同的后方根据地(红色旗帜)。不同的前线需要的士兵个数不同,后方根据地的士兵个数也不同,前线距离后方根据地的距离也不同。问如何设计转移方案,使得总转移代价最低?这就是最优运输想要回答的问题。
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图

那么,如果要用最优传输来解决词表学习问题,首先要将问题进行重建。作者们将句子拆分成字符后的表示看成是后方士兵,将候选词表看成是前线。为了避免不合法的搬运,作者们将不合法的搬运设为无穷大(比如字e搬运给词cat是不合法的)。每种搬运方式对应一种词表,那么我们只需要把搬运代价定义成MUV相关分数,就可以实现搜索的目的。
那么如何将词表学习的问题转化成为最优运输的代价呢?作者对问题进行了简化。简化过程分为两步,一个是对搜索空间进行压缩,一个是对目标进行近似。对技术细节感兴趣的读者,可以看看VOLT方法的伪代码:
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图

以下是VOLT生成的词表在双语翻译的结果,可以看出新方法学到的词表比经常使用的词表大小小很多,效果也很有竞争力。
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图

以下是在多语翻译的结果,总体来看,在三分之二的数据集上效果也是较好的。
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图

VOLT不需要结合任务的下游任务训练,因此非常简单高效。但许晶晶转而说道,“这其实是一把双刃剑,如果可以结合下游任务的话,有机会针对特定情况或许可以获得更好的性能和效率。”

3

不止是VOLT
相比于对模型的关注,词表在NLP社区中相关的研究可能少一些,而词表又是非常重要的一环。如何去理解词表其实是一个很有意思的问题。
对于这项工作的泛化性,许晶晶也有所期待,“或许未来能在其他NLP任务上看到VOLT的身影。”
同时,这项技术也被团队用到了竞赛中。在今年的WMT2021中,字节跳动AI Lab在WMT机器翻译比赛中取得了好成绩。这次比赛中,除了VOLT,团队们还使用了非自回归的方法GLAT。
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图

论文链接:https://arxiv.org/abs/2008.07905
在WMT2021国际机器翻译大赛上,字节跳动火山翻译团队以“并行翻译”系统参赛,获得德语到英语方向机器翻译比赛自动评估第一名。“并行翻译”在国际大赛首次亮相,就成功击败了从左向右逐词翻译的“自回归模型”技术,打破后者在机器翻译领域的绝对统治地位。
许晶晶的团队同事周浩说道,“这充分说明并行(非自回归)生成模型未必比自回归模型差”。
WMT2021是由国际计算语言学协会ACL举办的世界顶级机器翻译比赛,德英语向是该赛事竞争最激烈的大语种项目之一。