天壤韩定一:大模型小样本数据,AI驱动金融数字化|量子位·视点( 三 )


这就是“大模型”和“小样本”的含义 。
有了“大模型+小样本”的解法思路后 , 我们再去做机器学习模型会是什么样?
首先 , 标注少量训练数据 , 形成一个小数据样本 , 然后从我们的模型库选择一个合适的大模型 , 在大模型的基础上使用小数据样本进行训练 , 再标注少量生产数据用于评测 。 评测后调整好模型中的问题再进行改进 。 比起传统机器学习模型 , 节约了大量数据标注和模型训练的时间 。
天壤韩定一:大模型小样本数据,AI驱动金融数字化|量子位·视点
文章图片
但仍存在两个难点:其一是很难找到可以用于改进的训练数据 , 比如刚刚提到的金融机构很多数据有严格的访问流程 , 且种类繁多 , 未必是所需数据;其二是大模型对于计算资源的要求较高 , 需要几十上百的TPU来实现 , 具体的业务场景中未必存在这么多计算资源 , 所以大模型经过训练后 , 还需要进行压缩 , 只需要一块甚至不到一块的TPU或GPU就能实现 。
算力的快速发展帮助了AI的快速普及 , 同时“大模型+小数据”的思路提升了模型的生产效率和效果 , 经过针对性调整后就能够推广至金融业务流程中的各个方面 。
OCR训练平台高效连接物理世界和数字世界天壤韩定一:大模型小样本数据,AI驱动金融数字化|量子位·视点
文章图片
金融领域中各种银行卡、身份证的数字化大家早已经习以为常 , 这些数据对应的模型相对简单 。 但涉及到各种进账单、财报更复杂的证件或是国际结算单里面的提单 , 这一类模型要复杂和难很多 , 这是金融机构尝试做数字化的主要项目内容 。
天壤韩定一:大模型小样本数据,AI驱动金融数字化|量子位·视点
文章图片
这里列了一个比较完整版本的模型需求 , 包含各类证件照、银行票证、企业票证以及各类财务报表、医疗票据等 。 这些文本不仅种类繁多 , 版式各异 , 甚至还有不同语言 。 上百种不同专业领域里面的各种单证 , 对应每一家金融机构具体场景的真实的业务数据 , 这样的场景就比较适合用大模型和小训练数据的方式去精调 。
天壤韩定一:大模型小样本数据,AI驱动金融数字化|量子位·视点
文章图片
回顾数字化标准的三个痛点:一是模型参数多 , 需要非常多的训练数据 , 可以通过预训练大模型加小规模的数据去降低模型训练对数据的要求;二是数据的标注成本非常高 , 每人每天标300张已经是极限 , 每次使用10000张图片去训练相应的模型需要三个人按照极限标准标注数据 , 对于上亿个参数的大模型来说往往需要百万或者千万张这样的图片;三是模型实施周期非常短 , 不能以半年一年来计算 , 而要按照周、天来完成模型 。
几百个场景对应几百个需求 , 对我们整个的模型生产和管理提出了详细的架构上的要求 。 底层要管理足够多的CPU、GPU甚至TPU的资源 , 上层要管理好各种问题的数据集 , 还需要有模型训练的基础组件、足够多的大模型积累 。 基于这样的框架再去管理模型的训练和调优、评估及评估后的标准发布 , 再跟金融机构的各种业务进行链条整合 , 确保整个流程是非常顺畅、自动、高效地运转 。
基于大模型、小数据训练的AI能力调用接下来具体看一下基于大模型和小数据 , AI是如何训练和生产的 。
天壤韩定一:大模型小样本数据,AI驱动金融数字化|量子位·视点
文章图片
拿票证数字化的场景举例 , 一张纸质的票证标准数字化的过程是:首先通过手机或者高分拍照仪把它变成图像 , 转化为数字化基础的多媒体文件;在此基础上 , 判断图像对应到之前我们表中的不同类型 , 再使用OCR的方法将需要的信息转化为不同的字段、数字 , 通过语义识别判断整个文档中字段的关系 , 这其实是多任务的学习过程 。