袁行远|让00后疯狂的超级算法( 三 )



在网络上搜集了近1万亿字的文本,在一台嵌了几十万块处理器的超级计算机上做训练。对了,这台计算机是微软做的,后者也算是把投资的10亿美元多少收回了一些本儿。

有趣的是,英国卫报曾用GPT-3写了一篇专栏文章——《你害怕了吗?人类》。大致中心思想就是“虽然我是一个会思考的机器人,但别怕,我不会消灭你们,我是人类的命运共同体”。

袁行远|让00后疯狂的超级算法
文章插图

截自英国卫报

然而,我同时觉得微软这10亿美元的投资,可能有一小部分会打水漂儿。

因为在发布两年过去,这个语言生成器模型,虽然在技术层面取得了重大突破,甚至被澳大利亚哲学家与认知学家大卫·查尔莫斯称为“史上最重要、最有趣的人工智能系统之一”;但是,它并没有获得太多企业界用户的青睐——

除了以研究和训练为目的企业,只有一些“起到文本微调作用”的教育辅助工作。

虽然我没有接触过GPT-3,但同样作为另一种形式的“文本生成器”,既然关键基础技术尚未取得突破,那么彩云的故事续写算法,其实本质上也没有脱离“会犯傻”的范畴。

但的确长了几岁。

首先,虽然在续写的段落里,它不仅可以重现文本的模式,还能够在逻辑上表现十分正常,甚至比一些写拼凑水文的网文作家要好(下图,表现的确不错)。但由于对世界缺乏常识性理解,它才会不假思索说出“特朗普爱上马克龙”。或许,这是工程师们将其属性定义为“写小说”的一大原因。

袁行远|让00后疯狂的超级算法
文章插图



其次,它仍然受限于原始训练文本的知识属性。算法是由3万本网文小说训练出来的,那么我在输入科技产业的新闻报道与非虚构故事时,续写的内容就会驴唇不对马嘴。

袁行远|让00后疯狂的超级算法
文章插图


第三,很多时候,我发现它一直在说正确的废话(如下图)。也就是说,AI在不断对你输出的文本进行模仿与复制,对原始句做若干次同义句意的替换。

袁行远|让00后疯狂的超级算法
文章插图
AI更擅长废话文学

第四,前几点决定了,它还不能讲一个超长、完整且逻辑架构正确的故事。所以程序也只能限制你可以输入的字数和它能够输出的字数。

有趣的是,袁行远在说做这个项目的缘由时,多次提及“实验”、“研究”以及那个更加宏大的主题——“推动人类文明进入下一个阶段”,对《三体》的崇敬之心溢于言表。

虽然作为一名普通的科技编辑,我还远不能与工程师天马行空的想象力同频,只能听着对方执着于“科幻小说《三体》描述的充满光速飞船的未来,便是当代科学的目标”,从附和,再到逐渐陷入沉默。

但我很清楚,解决眼下的问题也同等重要。

很显然,除了基础科学遭遇的瓶颈,彩云也绝对避免不了会遇到GPT-3遇到的商业化难题。

让年轻人付费,不能靠好玩儿

尽管袁行远很乐观地告诉我,目前这个项目的确“是在开开心心做公益”,完全免费,只图年轻人能享受算法带来的一时快乐。但作为一个创业者与企业管理人,他必然要考虑设计一个面向中国C端年轻人市场的付费方案。

而目前他们关于此的想法,在我看来,尚存有较大缝隙——还不具备足够产品力。