天壤韩定一:大模型小样本数据,AI驱动金融数字化|量子位·视点( 二 )


象棋和围棋这两个问题其实本身都比较难:国际象棋的棋盘有8x8个格子 , 围棋有19x19个格子 。 从这个角度来说 , 围棋比国际象棋要难很多 。 数学家大致推算 , 像国际象棋这样的棋盘大概有10的47次方种可能性 , 而围棋有10的170次方 。 这个数字大到虽然看上去有限 , 却没有办法完全计算——物理学家估算整个宇宙中的原子数量是10的80次方 , 就算所有原子都参与计算 , 仍然有10的90次方的可能性需要靠时间来完成 。
AI围棋又是如何击败世界冠军?当年在国际象棋中 , AI使用的是搜索的方法:将围棋的棋盘状态和接下来可能发生的变化一一枚举 , 然后判断哪种情况结果更好 。 这样的AI模型算法简单 , 但是规模非常大 , 工程难度高 , 实现这样的模型只需要现在计算机系大三学生的水平就足够 。 IBM为了支持这样的程序 , 专门研制了VLSI象棋芯片 , 每颗芯片每秒进行11.38亿次浮点计算 , 意味着每秒可以计算2亿步棋 , 对应到国际象棋棋盘中就是能够估算当前棋面12步后的棋盘变化 , 而最厉害的人类国际象棋棋手大概只能估算到10步以内的局面变化 。
但这个方法解决不了围棋的问题 。 在AlphaGO出现前 , 2013、2014年时候 , 市面上最厉害的围棋AI也就只能做到围棋业余五段或专业三段、四段的水平 。
AlphaGO的出现改变了计算的框架 , 采用了基于蒙特卡洛的数字搜索 , 同时提出了两大神经网络:是估值网络和走棋网络 。 所谓估值 , 是用来判断棋谱局面的情况;走棋网络是根据当前棋盘的情况判断如何走棋 , 然后再用估值网络评估走哪步棋的胜率是多少 。 这两个网络都需要事先训练 , 通过自我博弈生成几十亿盘九段的棋谱 , 再通过总结这些棋谱提高估值网络的精准度 。
AlphaGO在实现这个模型时只使用了48颗TPU芯片 , 但实际计算力是8640teraflops比之前的480颗VLSI芯片还要高8万倍 。 预训练得到的大模型 , 其中估值网络和走棋网络都被训练得非常优秀 , 判断力比专业九段棋手还要高 。
过去的20年中 , 其一计算算力得到了极大的提升 , 其二所需要的芯片数量大幅降低 , 意味着耗电减少 , 其三是现在的模型可以离线训练 , 用大量的数据支持它做到对棋面的判断 。 基于此实现了人类国际象棋AI到围棋AI的突破 , 也支持了后续自然语言处理、图像识别等领域的进展 。
天壤韩定一:大模型小样本数据,AI驱动金融数字化|量子位·视点
文章图片
这里列出了自然语言大模型的发展 。 2018年谷歌提出Bert模型 , 其中有3.4亿的参数是通过13GB的文本数据训练得到的 。 以前做自然语言的分类或是图像实体的识别问题 , 需要成千上万标注的文本和feature , 再通过得到一个适用于之前标注的一万多样本的模型 。 但当有了Bert这样的模型支撑 , 只需要100个对应topic的标注文件 , 模型就能快速适应问题 , 不再需要大量的数据 。
2019年 , 出现GPT-2模型 , 参数量比Bert多五倍 , 达到15亿 , 这里训练数据又多了三倍 , 达到40GB 。 到了2020年 , 自然语言又有了大发展 , 提出了GPT-3模型 , 含有1750亿个参数 , 数量多了100倍 , 训练数据翻了1000倍到45TB 。 当再使用这些模型去解传统的自然语言问题时 , 使用非常少的数据模型就能够快速适应到问题所对应的具体场景 。
天壤韩定一:大模型小样本数据,AI驱动金融数字化|量子位·视点
文章图片
这里列的是2021年的三个模型都是在图像领域ImageNet公开、公认的标准数据集上面做图像分类的准确率 , 参数量都是几十亿的规模 , 训练数据也需要上亿 , 训练耗时、所需要的硬件资源都非常充足 。 将这样的大模型运用到新的具体应用场景完成图像分类或是物体检测的问题 , 只需要小规模的样本 , 也能快速得到好结果 。