token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?( 四 )


GLAT被还上线到了字节跳动的火山翻译中,为公司产品和火山引擎的企业级客户提供翻译服务,” 在训练数据量小的场景下,‘并行翻译’的质量相比传统技术处于劣势。但是当训练数据规模变大后,‘并行翻译’会逐渐缩小差距,甚至反超传统技术。“周浩补充道。
火山翻译是字节跳动旗下火山引擎的AI中台能力之一,提供全球先进的翻译技术与服务,打造各大场景智能翻译解决方案。
火山翻译打通了多个翻译场景,包括文本、语音、图片、音频、视频,以及虚拟世界和现实世界。其中,虚拟世界即AR,现实世界即同传。此外还支持多语种,包括56门语言、3080个语向的翻译。
在2021年上半年,火山翻译研发了视频翻译和AR智能翻译眼镜,火山同传也支持了多场大会与直播,很好促进了多语言内容互通。
视频翻译:

token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图
AR智能翻译眼镜:
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图
火山同传(图中为2021年智源大会Yoshua Bengio在线演讲片段):
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图

在这些产品背后,字节跳动AI Lab重点研发了多语言翻译和语音翻译,有如下几个亮点。
比如开源了 lightseq2.0,这是业界最快的推理和训练引擎,可以把机器翻译的训练速度提升 3 倍,把推理速度提升 10 倍。
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图

以及研发了大规模多语言预训练 mRASP2 ,可以支持 150 个语种之间的互译,通过大规模预训练翻译效果非常好。
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图

还有研发了端到端语音翻译,并且开源了 NeurST,引起了业内较大的关注。
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图

token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图

“既重视基础研究,又能高效转化技术。”这也是许晶晶当初选择字节跳动AI Lab的原因,“组里的同事们都很年轻,有活力、有想法,同时氛围又很自由,大家都会积极地去推动整个工作组的研究,并在自己的领域中发光发热。”
许晶晶的主要研究方向是绿色深度学习,VOLT的能力正好定位于这个价值观。
token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?
文章插图
VOLT:绿色环保的词表学习方案
以主流词表BPE为例。为了搜索最优词表,业内普遍会通过大量自然语言处理下游任务的训练以寻找最优大小。相比之下,使用VOLT方案可以节省92%的算力,这同时意味着所需电能的大量减少。
巧合的是,伏特(volt)是电学的一个基本单位。可以说,VOLT是一项非常环保的绿色解决方案。
机器翻译是NLP应用的主要部分,而NLP的市场价值仍然无可限量。John Snow实验室与Gradient Flow合作在2020年发布了一份全球调查报告。这项全球调查询问了来自50多个国家的近600名受访者,全面了解了2020年NLP的采用和实施状况。
尽管今年IT支出不景气,但有趣的是,NLP预算全面增加,报告的NLP技术预算比去年增加了10-30%。考虑到该调查是在全球COVID-19大流行的高峰期进行的,而当时全球的IT支出都在下降,这一点尤其重要。

4