在去年一连串的轰炸之下|ai是元宇宙的关键技术之一( 二 )


自监督学习的优势在于无需给出数据标注 , 模型可以从无标注的数据中自我学习 , 是一种理想的机器学习模型 。
在去年一连串的轰炸之下|ai是元宇宙的关键技术之一
文章图片
目前Meta已经联合13所大学组成联盟 , 组成了有史以来最大的自我监督学习数据集 , 目前积累了几千小时的第一人称视频 , 大家可用于研究在虚拟空间中的任何工作 。
3 , 多语言翻译系统
虽然现在翻译软件已经能够很好的应用到文本中来 , YouTube视频也支持提取英文并进行翻译 , 但是在三维场景中存在同样的问题 。
如同我们日常生活 , 在虚拟场景中与任何人交流时并不会看到文字或字幕 , 即便是外国人 。 因此 , 常规的翻译方案并不适用于三维场景 。
扎克伯格表示:目前全球仍有近一半人群无法在互联网上使用自己的语言 , 例如在中非和西非地区有几百万人的语言在互联网并不流行 , 只能访问英文或其它语言 。
在去年一连串的轰炸之下|ai是元宇宙的关键技术之一
文章图片
另一个现实是 , 即便目前最主流的机器学习翻译模型 , 也只能通过英语作为中转语言 , 即:将A语言翻译为英文 , 再将英文翻译为B语言 。
而这就会给翻译增加一些噪点和不确定性 。 为此 , Meta推出了开源AI翻译模型:LASER语言工具包 。
在去年一连串的轰炸之下|ai是元宇宙的关键技术之一
文章图片
LASER特点是可以将任何句子转换为其它语言 , 省去了英文中转步骤 , 例如A语言可以直接翻译为B语言 。
在去年一连串的轰炸之下|ai是元宇宙的关键技术之一】目前 , 已经支持100多种语言的翻译 , 并且进行了1400小时的法语、德语、西班牙语、英语之间确定性的语音对齐 。 这其中的难点包括:口语到书面语的表达形式不同 , 尤其是少见的没有书面习惯的语言 。
为此 , Meta也正在开发一套语音到语音翻译系统 , 即可以实现:A语言的人说话 , B语言的人直接收听翻译后的语音 。 Meta表示:这种方法已经被证明比常规单独语音识别+机器翻译的合成模型要更快 。
在去年一连串的轰炸之下|ai是元宇宙的关键技术之一
文章图片
当然 , 这类语音到语音的翻译系统 , 更是为了今后的AR眼镜所准备 , 届时一套接近人类翻译水平的实时翻译眼镜就 。
除此之外 , Meta还公布了CAIRaoke , 这是一套专为AR虚拟助手开发的AI对话模型 , 目的是让机器人聊天助手更好的理解你的说话内容 , 可以更好与你对话 , 在三维场景中互动 。