token|中国力量在人工智能顶会崛起,这枚NLP“金牌”奥妙何在?( 四 )
GLAT被还上线到了字节跳动的火山翻译中,为公司产品和火山引擎的企业级客户提供翻译服务,” 在训练数据量小的场景下,‘并行翻译’的质量相比传统技术处于劣势。但是当训练数据规模变大后,‘并行翻译’会逐渐缩小差距,甚至反超传统技术。“周浩补充道。
火山翻译是字节跳动旗下火山引擎的AI中台能力之一,提供全球先进的翻译技术与服务,打造各大场景智能翻译解决方案。
火山翻译打通了多个翻译场景,包括文本、语音、图片、音频、视频,以及虚拟世界和现实世界。其中,虚拟世界即AR,现实世界即同传。此外还支持多语种,包括56门语言、3080个语向的翻译。
在2021年上半年,火山翻译研发了视频翻译和AR智能翻译眼镜,火山同传也支持了多场大会与直播,很好促进了多语言内容互通。
视频翻译:
文章插图
文章插图
文章插图
文章插图
在这些产品背后,字节跳动AI Lab重点研发了多语言翻译和语音翻译,有如下几个亮点。
比如开源了 lightseq2.0,这是业界最快的推理和训练引擎,可以把机器翻译的训练速度提升 3 倍,把推理速度提升 10 倍。
文章插图
以及研发了大规模多语言预训练 mRASP2 ,可以支持 150 个语种之间的互译,通过大规模预训练翻译效果非常好。
文章插图
还有研发了端到端语音翻译,并且开源了 NeurST,引起了业内较大的关注。
文章插图
文章插图
“既重视基础研究,又能高效转化技术。”这也是许晶晶当初选择字节跳动AI Lab的原因,“组里的同事们都很年轻,有活力、有想法,同时氛围又很自由,大家都会积极地去推动整个工作组的研究,并在自己的领域中发光发热。”
许晶晶的主要研究方向是绿色深度学习,VOLT的能力正好定位于这个价值观。
文章插图
以主流词表BPE为例。为了搜索最优词表,业内普遍会通过大量自然语言处理下游任务的训练以寻找最优大小。相比之下,使用VOLT方案可以节省92%的算力,这同时意味着所需电能的大量减少。
巧合的是,伏特(volt)是电学的一个基本单位。可以说,VOLT是一项非常环保的绿色解决方案。
机器翻译是NLP应用的主要部分,而NLP的市场价值仍然无可限量。John Snow实验室与Gradient Flow合作在2020年发布了一份全球调查报告。这项全球调查询问了来自50多个国家的近600名受访者,全面了解了2020年NLP的采用和实施状况。
尽管今年IT支出不景气,但有趣的是,NLP预算全面增加,报告的NLP技术预算比去年增加了10-30%。考虑到该调查是在全球COVID-19大流行的高峰期进行的,而当时全球的IT支出都在下降,这一点尤其重要。
- 产业|打造世界级产业地标 中国声谷冲刺5000亿产值
- 三星|试图挽回中国市场,国际大厂不断调价,从高端机皇跌到传统旗舰价
- 蓝思科技|苹果与34家中国供应商断绝合作,央视呼吁:尽快摆脱对苹果依赖
- 他是“中国氢弹之父”,他的名字曾绝密28年,他叫于敏
- 短信|关于5G消息,中国移动取得新进展,微信该做准备了
- 一个时代的结束!中国移动:10086 App将于1月30日起
- 信息科学技术学院|瞧不起中国芯?芯片女神出手,30岁斩获国际大奖,让美国哑口无言
- 智能手机|全球第17位!App Annie报告:2021年中国人均每天用手机3.3小时
- 本周华为小米相继报出的新闻,让我看到中国科技公司未来发展希望
- 中国电信|在Dolby Week,我见识了真正的杜比体验