聊天|3D视频聊天、百万比特量子计算机:谷歌I/O大会上让我们看到未来( 二 )


与英伟达等芯片公司提出的新一代 AI 加速器类似,谷歌 TPU 效率提高的秘诀在于极快的芯片间互联技术,可以将数百块独立的芯片转变成紧密结合的单个系统来使用。皮查伊表示:「TPU pod 所有芯片间的大规模互联带宽是其他任何组网技术的十倍。」
TPU v4 已经部署在谷歌的数据中心中使用,今年晚些时候将向人们开放芯片实例。
另外,谷歌表示 TPU v4 更高的运算效率带来的好处是更环保。在未来部署的数据中心上,TPU 将使用近 90% 的无碳新能源运行。
MUM,比 BERT 强 1000 倍的多模态、多语言大模型
在 I/O 大会上,谷歌展示了使用 TPU v4 的人工智能应用。我们知道,如今很多 AI 应用是基于 Transformer 的,该模型在 2017 年由谷歌研究人员提出,用全 attention 的结构代替了 LSTM,在翻译任务上取得了更好的成绩。这项技术随后引发了预训练模型的技术突破。
很多人都知道阅读理解模型 BERT,其中的 T 是 Transformer;谷歌正在开发的搜索模型 T5,其中的 T 是 Transformer;如果你知道此前 OpenAI 提出的全球最大预训练 AI 模型 GPT-3,其中的 T 也代表 Transformer。
目前谷歌正在研究的模型是 MUM(Multitask Unified Model,多任务统一模型)。谷歌表示,虽然同样是基于 Transformer 架构,但 MUM 比 BERT 强 1000 倍。
从名字可以看出,MUM 是一种多模态模型,可以同时处理网页、图像等多种数据(未来还有可能扩展到音频、视频等)。这种多模态的设计使其非常适用于搜索。谷歌表示,如今的搜索引擎还不够智能,无法通过一次提问提供更加全面的信息,因此人们需要搜索多次。但有了 MUM 之后,这种问题可以得到缓解。
举例来说,你之前去过亚当斯山徒步,现在想去富士山,你想知道自己该做哪些准备。在这种情景下,你只需要把「我需要做什么准备」这个问题抛给搜索引擎,其背后的 MUM 就可以理解你所谓的「准备」包含哪些内容,比如两山之间的差别、需要进行哪些锻炼、携带哪些装备以及徒步的路线等,然后指向网络上有用的文章、视频和图像。
?
这种多模态还可以让你用文字之外的信息进行搜索,比如拍下自己的鞋子,问「我能穿着这双鞋子去富士山吗?」
此外,MUM 还是多语言?的,使用了 75 种语言进行训练。这使其具备了在不同语言之间传递知识的能力。还是以上述问题为例,关于「富士山」的信息很多都是日语的,但有了 MUM 的加持,你用英语或其他语言也能搜到它们。
?
?
LaMDA:聊天不设限的语言模型
除了 MUM 之外,谷歌还在此次的 I/O 大会上公布了另一个基于 Transformer 的语言模型:LaMDA(Language Model for Dialogue Applications)。和 MUM 不同,LaMDA 是专门为对话打造的,而且是开放域对话。
谷歌表示,LaMDA 可以和人在无穷无尽的话题转换中聊下去。在接受对话训练的过程中,它掌握了开放式对话与其他语言的细微差别,尤其是「sensibleness」(合理)和具体。
举例来说,如果你?对别人说,「I just started taking guitar lessons」人类的回答可能是:「How exciting! My mom has a vintage Martin that she loves to play」。在这句对话中,「How exciting」就是一种合理的回答,但同时我们也注意到,这句话几乎也是放之四海而皆准的(就像「我不知道」),因此并不能完整地体现对话机器人的智能性。而后面那句「My mom has a vintage Martin that she loves to play」才是人类对话更重要的特点:合乎语境且具体。谷歌表示,这就是他们的 LaMDA 所学到的内容。
聊天|3D视频聊天、百万比特量子计算机:谷歌I/O大会上让我们看到未来
文章插图

谷歌还表示,LaMDA 是基于他们 2020 年的一项研究。研究链接:https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html