炸场!DeepMind通用人工智能新突破:一套权重通吃视觉文本和决策
梦晨鱼羊发自凹非寺
量子位|公众号QbitAI通用人工智能 , 还得看DeepMind 。
这回 , 只一个模型 , 使用相同的权重 , 不仅把看家本领雅达利游戏玩得飞起 。
和人类聊聊天、看图写话也不在话下 。
甚至还能在现实环境里控制机械臂 , 让其听从指令完成任务!
文章图片
模型名为Gato , 西班牙语中的“猫” 。
按照DeepMind的说法 , 这只猫猫可以使用具有相同权重的同一个神经网络 , 适应各种不同的环境 。
具体而言 , DeepMind让它在604个不同的任务上接受了训练 , 这些任务模式完全不同 , 需要观察的元素和行为规则也不同 。
而Gato不仅在450个任务中都超过了专家水平的50% , 在23个雅达利游戏上表现还超过人类平均分 。
文章图片
DeepMindCEO哈萨比斯直接说:
这是我们目前最通用的智能体 。
文章图片
这一最新成果一发布 , 当即就在AI圈子里掀起热议 。
文章图片
有AI研究者指出:
Gato令人印象深刻 。 只需要在云上花费5万美元 , 就能完成对它的训练 。
这点钱只是PaLM训练费用1100万美元的一个零头 。 用PaLM的预算完全可以将Gato扩展100倍 , 而这很可能是行之有效的 。
PaLM是谷歌发布的5400亿参数语言模型 。
文章图片
有人直接祭出了AlphaStar架构和Gato架构的对比:
文章图片
ZoomAI杰出科学家AwniHannun则直接感叹起过去5周以来 , 谷歌/DeepMind释出成果之密集 。
文章图片
所以这只来自DeepMind的“猫猫” , 究竟怎么一回事?
一个Transformer搞定一切对于研究方法 , DeepMind只用一句话就解释明白了:
我们受到语言大模型的启发 , 用类似的方法把模型能力拓展到文本之外的领域 。
没错 , 这次立功的又是语言大模型中常用的Transformer架构 。
Transformer的本质就是把一个序列转换(transform)成另一个序列 。
文章图片
所以要想让它掌握各种不同任务 , 首先就需要把各类数据都编码成序列 。
文本自不必说 , 天然就是序列信息 , 可用经典的SentencePiece编码 。
图像 , ViT已经打好样 , 先按16x16像素分割 , 再给每个像素编上号处理成序列 。
文章图片
玩游戏时的按键输入同样是序列 , 属于离散值 , 比如懂得都懂的“上上下下左右左右BABA” 。
文章图片
操纵机器人时的传感器信号和关节力矩属于连续值 , 也通过一系列采样和编码处理成离散序列 。
最终 , 所有序列数据都交给同一个Transformer处理 。
文章图片
整个Gato模型使用的训练数据总体上偏向游戏和机器人控制任务 , 596个任务占了85.3% 。 视觉和自然语言任务只占14.7% 。
- 2016年成立的硅谷芯片公司Tachyum近日发布了一颗神奇的处理器|tachyum发布全球第一颗通用处理器
- 微信又加鸡肋功能,监测工具普通用户需要吗?
- 中国联通用户被“异常扣费”专家:已侵犯消费者权益
- 联通客服|大量中国联通用户凌晨被“异常扣费” 法律专家:应公告说明并道歉
- 看完通用开出的降价筹码,觉得芯片危机是一场史无前例的骗局
- CPU|选手机非得看处理器?不!普通用户看的其实是“大内存”
- 数据库|MIUI再次精简系统版本,普通用户体验将改善,极客用户哭晕在厕所
- iPhone|iPhone 新功能,全机型通用
- Transformer作者出走谷歌创业,专攻通用AI,获得6500万美元投资
- 136号段联通用户反映收到“奇怪数字短信”,联通客服回应:暂未有类似反馈