扎克伯格：AI技术才是AR和VR的万物之源( 二 ) 在去年一连串的轰炸之下

自监督学习的优势在于无需给出数据标注，模型可以从无标注的数据中自我学习，是一种理想的机器学习模型。

文章图片
目前Meta已经联合13所大学组成联盟，组成了有史以来最大的自我监督学习数据集，目前积累了几千小时的第一人称视频，大家可用于研究在虚拟空间中的任何工作。
3 ，多语言翻译系统
虽然现在翻译软件已经能够很好的应用到文本中来， YouTube视频也支持提取英文并进行翻译，但是在三维场景中存在同样的问题。
如同我们日常生活，在虚拟场景中与任何人交流时并不会看到文字或字幕，即便是外国人。因此，常规的翻译方案并不适用于三维场景。
扎克伯格表示：目前全球仍有近一半人群无法在互联网上使用自己的语言，例如在中非和西非地区有几百万人的语言在互联网并不流行，只能访问英文或其它语言。

文章图片
另一个现实是，即便目前最主流的机器学习翻译模型，也只能通过英语作为中转语言，即：将A语言翻译为英文，再将英文翻译为B语言。
而这就会给翻译增加一些噪点和不确定性。为此， Meta推出了开源AI翻译模型：LASER语言工具包。

文章图片
LASER特点是可以将任何句子转换为其它语言，省去了英文中转步骤，例如A语言可以直接翻译为B语言。
目前，已经支持100多种语言的翻译，并且进行了1400小时的法语、德语、西班牙语、英语之间确定性的语音对齐。这其中的难点包括：口语到书面语的表达形式不同，尤其是少见的没有书面习惯的语言。
为此， Meta也正在开发一套语音到语音翻译系统，即可以实现：A语言的人说话， B语言的人直接收听翻译后的语音。 Meta表示：这种方法已经被证明比常规单独语音识别+机器翻译的合成模型要更快。

文章图片
当然，这类语音到语音的翻译系统，更是为了今后的AR眼镜所准备，届时一套接近人类翻译水平的实时翻译眼镜就。
除此之外， Meta还公布了CAIRaoke ，这是一套专为AR虚拟助手开发的AI对话模型，目的是让机器人聊天助手更好的理解你的说话内容，可以更好与你对话，在三维场景中互动。