Jeff De2021谷歌年度 Jeff( 二 )

文章插图

文章插图

图注：“与 LaMDA 的对话，通过预设真实提示模仿威德尔海豹，“嗨，我是威德尔海豹。你有什么问题要问我吗？” 该模型在很大程度上保持了对话的角色特征。
Transformer 模型也对图像、视频和语音模型产生了重大影响，正如视觉 Transformer 模型的标度定律所预测的那样，所有这些任务也都从规模扩展中受益匪浅。
用于图像识别和视频分类的Transformer在许多基准上都取得了最先进的成果，谷歌还证明，与单独使用视频数据相比，在图像数据和视频数据上的联合训练模型可以提高视频任务的性能。
他们为图像和视频Transformer开发了稀疏的轴向注意力机制，可以更有效地使用计算，为视觉Transformer模型找到更好的标记图像方法，并通过检查视觉Transformer方法与卷积神经网络的操作方式相比，提高了对视觉Transformer方法的理解。将Transformer模型与卷积运算相结合，已在视觉和语音识别任务中显示出显著的优越性。
生成模型的输出质量也在大幅提高，这在图像的生成模型中表现得最为明显。
例如，最近的模型已经证明，仅给定一个类别（例如，输入“爱尔兰塞特”或“有轨电车”）就可以创建逼真的图像，也可以通过修复低分辨率图像，以创建一个看起来自然的高分辨率匹配图像（例如，输入“计算机，增强！”），甚至可以创建任意大小的自然场景。
另一个例子是，可以将图像转换为一系列离散标记，然后可以使用自回归生成模型以高保真度合成这些标记。

文章插图

图注：级联扩散模型的示例，该模型从给定类别生成新图像，然后将其用作种子来创建高分辨率示例：第一个模型生成低分辨率图像，其余模型对最终高分辨率图像执行上采样。

SR3 超分辨率扩散模型将低分辨率图像作为输入，并从纯噪声构建相应的高分辨率图像。
视频链接：https://iterative-refinement.github.io/assets/cascade_movie2_mp4.mp4
这些强大的功能背后，亦伴随着巨大的责任，因此谷歌表示会根据其 AI 原则仔细审查此类模型的潜在应用。
除了先进的单模态模型外，谷歌也开始注意大规模多模态模型的潜力。这些是迄今为止最先进的模型，因为它们可以接受多种输入模态（例如，语言、图像、语音、视频），并可以生成多种输出模态，例如，基于描述性的句子或段落生成图像，或用人类语言描述图像的视觉内容。
这是一个令人兴奋的方向，因为和现实世界一样，在多模态数据中有些东西更容易学习（例如，阅读并观看演示比仅仅阅读更有用）。因此，将图像和文本配对可以帮助完成多语言检索任务。并且，更好地理解如何将文本和图像输入配对，可以为图像描述任务带来更好的结果。
同样，对视觉和文本数据的联合训练也有助于提高视觉分类任务的准确性和鲁棒性，而对图像、视频和音频任务的联合训练可以提高所有模态的泛化性能。
此外还有一些迹象表明，自然语言可以用作图像处理的输入，告诉机器人如何与世界交互并控制其他软件系统，这预示着用户界面的开发方式可能会发生变化。这些模型处理的模态将包括语音、声音、图像、视频和语言，甚至可能扩展到结构化数据、知识图谱和时间序列数据。

文章插图

图注：基于视觉的机器人操作系统示例，该系统能够泛化到新任务。左图：机器人正在执行一项基于“将葡萄放入陶瓷碗中”指令的任务，而模型并未接受该特定任务的训练。右图：类似左图，但任务描述为“将瓶子放入托盘”。