人工智能|OpenAI雄心勃勃的机器人计划失败了：强化学习没法用？

机器之心报道
机器之心编辑部
不是谁都能像波士顿动力一样能不断找到下家。

文章插图

近期，OpenAI 公司联合创始人 Wojciech Zaremba 在一档播客节目中透露了这个消息。当主持人问到「你们为什么选择了机器人领域」的时候，Wojciech Zaremba 却表示，OpenAI 已将重点转移到其他领域，因为在那些领域中数据更容易获得。

文章插图

Wojciech Zaremba：我们曾在机器人技术上研究了几年，直到最近我们改变了 OpenAI 的关注点，实际上，我解散了机器人团队。
主持人：你为什么这样做？
Wojciech Zaremba：事实证明，只要能够访问数据，以及借助机器学习、无监督和强化学习，我们就可以取得巨大的进步…… 实际上有很多领域的数据非常丰富。而数据问题阻碍了我们在机器人技术方面的发展。
「解散机器人团队这个决定对我来说很难，但前段时间我意识到，从公司的角度来看，实际上这样是最好的」，Wojciech Zaremba 说道。
一份 OpenAI 方面发送给 VentureBeat 的声明表示：「在通过我们的魔方机器人项目和其他项目推进强化学习的最新技术之后，去年 10 月，我们决定不再继续进一步的机器人研究，而是将团队力量整合到其他项目中。由于人工智能及其能力的快速进步，我们发现其他方法，例如根据人类反馈进行强化学习，可以使我们的研究取得更快的进展。」
2019 年，OpenAI 展示了单手解魔方机器人的研究成果，一度引发科技圈的讨论热潮。单手玩魔方，对于一般人类来说都很困难，而那台 13000 年经验训练出来的五指机械手，还原魔方的几率达到了 20-60%，即使受到戴橡胶手套、绑住食指和中指、蒙上一块布等干扰，也不会影响其工作效率。

文章插图

如果我们是一家机器人公司，或者公司的使命与现在有所不同，我认为我们会继续下去。事实上，我非常相信机器人所采取的方法和方向，但是从我们想要实现的目标——也就是构建 AGI 来看，目前还有所欠缺。当创造机器人时，我们以为可以凭借自主生成数据和强化学习走得很远。
这让人们想起了昨天 AI 圈内讨论的一个话题：

文章插图

当然，在回答的更新部分中，俞扬表示：说没法用只是吐个槽，要想发论文，就只能沿着所谓的 SOTA 来改进，即使是看起来没有希望的方向。俞扬进一步说道：
好多留言说明了「没法用」反映出大家的心声。实际上强化学习这个古老的研究领域 2016 前在国内一直比较冷的根源就是没法用。研究领域大家也都清楚强化学习算法样本利用率低，然后做出了很多改进，但是要改进到什么程度才能有用呢，其实根据我们的经验有一个标准：
零试错：一次试错不能有，上线即能发挥效果，还要明显优于基线。
offline RL 是个正确的方向，但是目前的主流研究也有很多明显的弯路，可能发论文与做落地本身就是不同的事，大家的关心点不可能完全一致吧。
另外就是我们的落地越来越多，不再想着去说服别人 RL 可以用了。
对 AGI 的执着
一直以来，OpenAI 都认为巨大的算力是通向 AGI 或让 AI 学习任何人类学习任务之路的必要步骤。虽然 Yoshua Bengio、Yann LeCun 等大佬都认为 AGI 不可能存在，但 OpenAI 的联合创始人及其观点支持者始终相信强大的计算机与强化学习、预训练和其他技术相结合，可让 AI 实现跨越式进步，这几位联合创始人包括 Greg Brockman、首席科学家 Ilya Sutskever、Elon Musk、Reid Hoffman 和 Y Combinator 前总裁 Sam Altman。