小米科技|我和 AI 一起完成了这篇文章,主编说干得漂亮明天不用来了( 二 )


▲拿到这张《草地上的午餐》(莫奈)的原图 , Dall-E 2 会据此创作出多张风格类似、细节不同的画面
▲《草地上的午餐》之 AI 再创作 , 理论上可以有无限幅
基石模型的优点明显 。 一是参数大、训练数据量大 , 不仅不会边际效益递减 , 反而极大地提高了 AI 自身的能力和运算突破性 。 二是使用的小样本学习方法 ,AI 不用一遍遍「从头开始学」 , 可以碎片化选取自己需要的数据来自动执行 。
基石模型就相当于「通用技术」 。 1990 年代 , 经济历史学家将「通用技术」比如蒸汽机、印刷机、电动机等 , 视为推动生产力长期发展的关键因素 。 「通用技术」包含核心技术快速迭代、跨部门的广泛适用性和溢出效应等特征 , 从而刺激产品、服务和商业模式不断创新 。
今天的基石模型 , 已然具备了同样的特点 。
神经网络+自我监督学习 , 神乎其技 当下 , 超过 80% 的人工智能研究都集中在基石模型上 。 像特斯拉也在构建一个庞大的基石模型 , 为自动驾驶服务 。
【小米科技|我和 AI 一起完成了这篇文章,主编说干得漂亮明天不用来了】要理解斯坦福大学人工智能研究院院长李飞飞所说的「人工智能阶段性的变化」 , 就要知道基石模型和过去的人工智能模型有何不同 。
如今所有的机器学习模型都立足于「神经网络」——模仿脑细胞相互作用方式的编程上 。 它们的参数描述了虚拟神经元之间连接的权重 , 模型通过反复试验权重 , 被「训练」到能够输出开发者想要得到的特定内容 。
▲Dall-E 和 Dall-E 2 的清晰度对比
过去几十年里 , 神经网络都处于实验阶段 , 没什么能落地的 。 直到 2000 年代末、2010 年代初 , 超级计算机算力增强 , 互联网提供了足够多的训练数据 , 在硬件和数据的加持下 , 神经网络才开始完成文本翻译、语音指令解释、不同图片中识别同一张脸等此前「不可能完成的任务」 。
特别到了 2010 年代 , 机器学习和矿机一样也用起了 GPU。 GPU 的特点是 , 有上千颗流处理器 , 可以进行大量且重复的一般运算 , 而且还不贵 , 比启动一次超级计算机便宜太多了 。
突破出现在 2017 年 。 当时谷歌的 BERT 模型使用了新型架构 , 不再按「惯例」、依照顺序处理数据 , 而是采用了同时「查看」所有数据的机制 。
具体来说 , 就是 BERT 一类的模型 , 没有用预先标记的数据库训练 , 用的是「自我监督学习」技术 。 当模型在无数的字节中挖掘时 , 能自己找到隐藏的单词 , 或者根据上下文猜测意思——和我们从小到大做的考试题特别像!整个新方法非常接近人类大脑的学习机制 , 扫一眼就能找到自己感兴趣的东西 , 不用逐字逐句地去处理、消化 。
▲Dall-E 2 在左图的基础上 , 添加了一只粉色橡皮鸭(毫无 PS 痕迹)
经过数十亿次的猜测-比较-改进-猜测的循环后 , 模型一般都能妙笔生花、才华过人 。
不仅限于文字 , 神经网络和自我监督学习技术均可以应用在语言文字之外 , 包括图片、视频甚至大分子数据库等等 。 像 DALL-E 图形模型 , 猜测的不是下一个字母组合 , 而是下一个像素簇 。
在大模型基础上开发的应用也是花样繁多 。 除了上文提到的一系列文艺创作类应用 , 谷歌旗下的 DeepMind 推出了 Gato, 可以玩视频游戏、控制机械臂和写作 。 Meta 的「世界模型」貌似要搁浅 , 本来是打算为元宇宙提供背景的 。
酷东西或图灵陷阱 基石模型的繁荣 , 对芯片制造商肯定是好消息 。 积极参与制造基石模型的英伟达 , 已经是世界上最有价值的半导体设计商之一 , 市值为 4680 亿美元 。