炸场！DeepMind通用人工智能新突破：一套权重通吃视觉文本和决策梦晨鱼羊发自凹非寺量子位|公

梦晨鱼羊发自凹非寺
量子位|公众号QbitAI通用人工智能，还得看DeepMind 。
这回，只一个模型，使用相同的权重，不仅把看家本领雅达利游戏玩得飞起。
和人类聊聊天、看图写话也不在话下。
甚至还能在现实环境里控制机械臂，让其听从指令完成任务！

文章图片
模型名为Gato ，西班牙语中的“猫” 。
按照DeepMind的说法，这只猫猫可以使用具有相同权重的同一个神经网络，适应各种不同的环境。
具体而言， DeepMind让它在604个不同的任务上接受了训练，这些任务模式完全不同，需要观察的元素和行为规则也不同。
而Gato不仅在450个任务中都超过了专家水平的50% ，在23个雅达利游戏上表现还超过人类平均分。

文章图片
DeepMindCEO哈萨比斯直接说：
这是我们目前最通用的智能体。

文章图片
这一最新成果一发布，当即就在AI圈子里掀起热议。

文章图片
有AI研究者指出：
Gato令人印象深刻。只需要在云上花费5万美元，就能完成对它的训练。
这点钱只是PaLM训练费用1100万美元的一个零头。用PaLM的预算完全可以将Gato扩展100倍，而这很可能是行之有效的。
PaLM是谷歌发布的5400亿参数语言模型。

文章图片
有人直接祭出了AlphaStar架构和Gato架构的对比：

文章图片
ZoomAI杰出科学家AwniHannun则直接感叹起过去5周以来，谷歌/DeepMind释出成果之密集。

文章图片
所以这只来自DeepMind的“猫猫” ，究竟怎么一回事？
一个Transformer搞定一切对于研究方法， DeepMind只用一句话就解释明白了：
我们受到语言大模型的启发，用类似的方法把模型能力拓展到文本之外的领域。
没错，这次立功的又是语言大模型中常用的Transformer架构。
Transformer的本质就是把一个序列转换(transform)成另一个序列。

文章图片
所以要想让它掌握各种不同任务，首先就需要把各类数据都编码成序列。
文本自不必说，天然就是序列信息，可用经典的SentencePiece编码。
图像， ViT已经打好样，先按16x16像素分割，再给每个像素编上号处理成序列。

文章图片
玩游戏时的按键输入同样是序列，属于离散值，比如懂得都懂的“上上下下左右左右BABA” 。

文章图片
操纵机器人时的传感器信号和关节力矩属于连续值，也通过一系列采样和编码处理成离散序列。
最终，所有序列数据都交给同一个Transformer处理。

文章图片
整个Gato模型使用的训练数据总体上偏向游戏和机器人控制任务， 596个任务占了85.3% 。视觉和自然语言任务只占14.7% 。