DeepMind又造“小人”了！这群小人就是英国人工智能实验室造出的“智能体”|DeepMind的智能体成精了，还学会“发脾气”了？ DeepMind又造“小人”了！

DeepMind又造“小人”了！

文章图片
这群小人就是英国人工智能实验室造出的“智能体” ，不过只可以在游戏中看到。之前以4：1力挫世界围棋冠军李世石的阿尔法狗，就是这家实验室训练的智能体。
但你可能不知道的是， DeepMind”还训练过“象棋棋手”、“足球球员”、”电竞玩家“ ，甚至提出“人工生命"的言论。

文章图片
【DeepMind又造“小人”了！这群小人就是英国人工智能实验室造出的“智能体”|DeepMind的智能体成精了，还学会“发脾气”了？】最近的这群智能体，竟然能直接跳过数据填食，在开放式的任务环境中自我进化。
此前的阿尔法狗和阿尔法star ，能力再强，也只能在各自的游戏里释放大招，超出自己的游戏范围立马“歇菜” 。而这批小人却能在不同的游戏里游刃有余地完成任务，展现出超强的泛化能力。难道人工智能要迈出泛化“顽疾”了吗？
在一个抢夺高地金字塔的任务里，两个不同颜色的小人能力值相当。都没有跳跃功能的它们，开始“发脾气"乱扔东西。混乱中，竟把其中一块板子”扔“成了楼梯，长驱直入，任务完成！
多次实验发现，这些小人可以复现这种方法，难道这群智能体有了记忆？
不仅如此，小人还学会了“相对运动”--我上不去，你下来--借助板子直接把目标扒拉下来了!甚至为了赢得比赛，多个小人学会了打配合，团体成长力刷刷上涨。
这种在虚拟游戏中自我进化的智能体，仅仅需要人为搭建一个任务环境，设计大量的任务目标，利用加强深度学习的方法，一步一步打通关，最终成为一个“十八般武艺”的智能体。

文章图片
没有样本，没有经验，这些智能体究竟如何进化，零样本学习方式是否意味着这些智能体已经具备了基本的“自学意识”？社会达尔文主义的训练场
相比之前做出的Ai足球场，这批智能体的训练场更像一个游戏“社会” ，里面有无数个游戏房间，每个房间的游戏按照竞争性、平衡性、可选性、探索难度四个纬度进行区分。

文章图片
不管是哪种任务，这批智能体都只能从最简单的开始，一步步解锁更复杂的游戏，这也导致整个游戏更像一个虚拟社会。
这些无需大数据集训练出来的智能体，每玩一次游戏就成长一次，在与各种环境的互动和“奖励”中，成长为一个更通用的智能体，也更类似于人工“生命” 。
能让智能体自我进化的关键在于正确设计初始智能和进化规则。一开始是非常简单的，所有的复杂结构都是进化而来。就像婴儿做不了生孩子的事，布置任务的核心是不要超出智能体自身的改进能力。
根据DeepMind的说法，每个AI智能体会在4000个游戏房间中玩了大约70万个独特的游戏，并在340万个任务中经历了2000亿个训练步骤。 1亿个步骤相当于大约30分钟的训练。按照这种训练方法， 41天就能训练出一群“成年”智能体。它还是不会思考
DeepMind表示， “单个AI智能体可以开发智能来实现多个目标，而不仅仅是一个目标。 ”
AI智能体新科技公司Pathmind的CEOChrisNicholson也说到， “它学到的技能可以举一反三。例如，智能体学习抓取和操纵物体，就能完成敲锤子或者铺床的任务。而DeepMind正在用编程为AI智能体在这个世界上设定目标，而这些AI智能体正在学习如何一一掌握它们。 ”