让00后疯狂的超级算法( 二 )


而这次的“彩云小梦” , 暂时来看 , 则更像一个“只能博年轻人一笑”和“文学与艺术价值远高于商业价值”的算法程序 , 而这也是我最大的疑虑之一 。
让00后疯狂的超级算法
文章图片
“今天有虎嗅的采访人员来访”是我输出的一句话
最难的那座堡垒 , 攻不下
从另一个角度来看 , 正是由于这套算法跟“商业化”的弱关联 , 袁行远应该是我见过对人工智能技术怀有最真挚情感的技术创业者之一 。
比起 , 图像识别、人脸识别这些现阶段在工业应用界已经“卷出花儿来”的技术 , 人工智能的另一个重要分支——“自然语言处理” , 如今无法得到大规模应用的根本原因 , 是因为它还无法对现实世界中的大量抽象概念 , 语义和逻辑推理做“代码级描述” 。
举个例子 , 两个文盲不识字 , 但他们俩聊天就能完全无障碍 。
这段对话里 , “200次”更像是一种形容词或表达心情的感叹词 , 然而从语义角度 , 机器很难理解 。
近年来 , 深度学习的崛起 , 一下子解决了计算机视觉(CV)“用手工提取特征费劲儿”的难题 , 所以带来了CV领域爆发性的进展 。
然而从本质来看 , 即便是计算机视觉 , 也仅仅是在感知层面取得了突破 , 并未在下一次层——语义和逻辑推理上多大突破 。 这也是为何自动驾驶的“规划决策”如此难 。
而比起直观的图像 , 必须要越过“感知” , 对“高层语义、记忆、知识抽象以及逻辑推理”要求极高的自然语言处理(图像识别也需要 , 只是在感知阶段商业化好一些) , 难度显然要大 , 成就感更强 。
让00后疯狂的超级算法
文章图片
来自网上Siri的对话
你可能会质疑 , 怎么能说“自然语言处理”没有大规模应用?苹果的Siri、智能音箱、机器翻译 , 还有隐藏在各种电商与社交平台背后的算法推荐 , 都是这项技术的存在形式 。
但实际上 , 这些都是“自然语言处理”山脚下最好收割的第一批果实 。
就像智能音箱无论卖5000万台还是1亿台 , 仍然被冠以“智障”的头衔 。 因为 , 它仍然不能“理解这个世界背后的运行逻辑”——这才是山顶上最有价值的药材 。
“除了写作之外 , 其他都不值得人工智能去研究!”袁行远很坚决 。 他让这个项目 , 更像是一个算法工程师或科学家 , 在跟市场和技术难度较劲儿 。
“就像‘写作文’是语文试卷上的最后一道题 。 它比什么下围棋 , 比自动驾驶和人脸识别都要难!因为难 , 才有做的价值!
因为图像数据是高密度、低信息量数据;而文字则是高密度 , 同时又高度抽象化数据 , 背后的数据空间比我们想像地大太多 。 ”
当然 , 产业里并不只有袁行远抱有相同的“理想” 。 国外不但开始地更早 , 而且已向外界展示过自己的强大 。
让00后疯狂的超级算法
文章图片
微软CEO纳德拉(左)与OpenAICEO阿特曼(右)在2021微软Build大会上
2020年5月 , OpenAI推出了被称为“全球最先进语言模型”的GPT-3 。 这个由马斯克等硅谷大佬在2015年支持创建的人工智能研究组织 , 在2018年与马斯克SayGoodbye之后 , 便于第二年正式走上商业化之路 , 并马上接受了微软投资的10亿美元 。
如今 , 新一代语言生成器GPT-3 , 被以一种云服务的方式 , 卖给想用它自动续写文本的机构 。 毋庸置疑 , 它建立在自然语言处理技术之上——