袁行远|让00后疯狂的超级算法( 三 )

在网络上搜集了近1万亿字的文本，在一台嵌了几十万块处理器的超级计算机上做训练。对了，这台计算机是微软做的，后者也算是把投资的10亿美元多少收回了一些本儿。

有趣的是，英国卫报曾用GPT-3写了一篇专栏文章——《你害怕了吗？人类》。大致中心思想就是“虽然我是一个会思考的机器人，但别怕，我不会消灭你们，我是人类的命运共同体”。

文章插图

截自英国卫报

然而，我同时觉得微软这10亿美元的投资，可能有一小部分会打水漂儿。

因为在发布两年过去，这个语言生成器模型，虽然在技术层面取得了重大突破，甚至被澳大利亚哲学家与认知学家大卫·查尔莫斯称为“史上最重要、最有趣的人工智能系统之一”；但是，它并没有获得太多企业界用户的青睐——

除了以研究和训练为目的企业，只有一些“起到文本微调作用”的教育辅助工作。

虽然我没有接触过GPT-3，但同样作为另一种形式的“文本生成器”，既然关键基础技术尚未取得突破，那么彩云的故事续写算法，其实本质上也没有脱离“会犯傻”的范畴。

但的确长了几岁。

首先，虽然在续写的段落里，它不仅可以重现文本的模式，还能够在逻辑上表现十分正常，甚至比一些写拼凑水文的网文作家要好（下图，表现的确不错）。但由于对世界缺乏常识性理解，它才会不假思索说出“特朗普爱上马克龙”。或许，这是工程师们将其属性定义为“写小说”的一大原因。

文章插图

其次，它仍然受限于原始训练文本的知识属性。算法是由3万本网文小说训练出来的，那么我在输入科技产业的新闻报道与非虚构故事时，续写的内容就会驴唇不对马嘴。

文章插图

第三，很多时候，我发现它一直在说正确的废话（如下图）。也就是说，AI在不断对你输出的文本进行模仿与复制，对原始句做若干次同义句意的替换。

文章插图
AI更擅长废话文学

第四，前几点决定了，它还不能讲一个超长、完整且逻辑架构正确的故事。所以程序也只能限制你可以输入的字数和它能够输出的字数。

有趣的是，袁行远在说做这个项目的缘由时，多次提及“实验”、“研究”以及那个更加宏大的主题——“推动人类文明进入下一个阶段”，对《三体》的崇敬之心溢于言表。

虽然作为一名普通的科技编辑，我还远不能与工程师天马行空的想象力同频，只能听着对方执着于“科幻小说《三体》描述的充满光速飞船的未来，便是当代科学的目标”，从附和，再到逐渐陷入沉默。

但我很清楚，解决眼下的问题也同等重要。

很显然，除了基础科学遭遇的瓶颈，彩云也绝对避免不了会遇到GPT-3遇到的商业化难题。

让年轻人付费，不能靠好玩儿

尽管袁行远很乐观地告诉我，目前这个项目的确“是在开开心心做公益”，完全免费，只图年轻人能享受算法带来的一时快乐。但作为一个创业者与企业管理人，他必然要考虑设计一个面向中国C端年轻人市场的付费方案。

而目前他们关于此的想法，在我看来，尚存有较大缝隙——还不具备足够产品力。