天壤韩定一：大模型小样本数据，AI驱动金融数字化｜量子位·视点( 四 ) 后疫情时代

对应到大模型中，所需要调用的图像类模型功能有旋转方向、ROI检测、文本区域检测和文字识别，将文本区域内的信息转化为具体的字符。文本类模型的功能包括实体识别和对应关系的抽取。
将不同功能的大模型组合去解决具体任务，需要看大模型在具体任务的每个步骤是否有足够高的精度、是否需要做精调以及更多标注数据用于评测等，再看整体的效果是否会得到提升。

文章图片
再举一个具体步骤的例子，比如营业执照识别分为横版和竖版，具体应用时，第一批拿到的数据可能全部都是竖版、没有横版。我们当时使用16张竖版数据训练得到的模型，应用到横版的数据集中，准确率只有76% ， f1scoreprecision和recall这些综合指标都不太理想。在补充标注了一些横版的数据集后，只需要5张就能够提升准确率到95.5% 。

文章图片
另外一个例子：进出口的发票的关键信息提取。对于这样的票证，难点在于每一家国际企业公司的发票版式都不太一样，客户名字、数量、单价、总价可能都在不同位置去识别实体会比较困难。传统的做法是要找大量的数据去做标注，基于大模型放几张完全不同版式的发票给少量的标注，就可以快速提取关键信息。

文章图片
例子左上角是客户的名字和地址，表格中标明了具体的什么货物、多少钱以及总价。模型通过实体抽取就可以将其变成单个字段，抽取具体的“值” 。这张INVOICE里包含一些逻辑关系的表格的，这个关系也需要用大模型加小数据做训练来提取。

文章图片
另外一个发票的例子中，表格中嵌套着表格，每一行是每一类货物的类别，这一类货物里面还有细分表格项。这些场景都需要我们用大量预训练模型加小规模的、精调的样本数据。
回过来再看在票证数字化整个训练流程， “大模型+小数据”到底如何改进了过程？
传统的票证数字化的训练的流程是：先收集数据，再做标注数据，模型训练，模型评估，到模型发布。模型通常从0%的准确率开始，一步步迭代，先提升到50% ，再逐步提升到70%、80% 。
而有了预训练大模型，直接从80%的准确率开始训练，再迭代一次就可以做到90% 。对于标注数据，每人每小时标30条数据，成本非常高，通过使用小样本数据，可以使用非常少量的数据标注，让整个模型训练的过程更高效。当模型90%的准确率需要提升到95%时，会比较难，要靠数据生成的方法去解决数据样本稀缺的问题。
这个方法在开场介绍围棋的时候提到， AlphaGO模型训练用了几十亿盘九段棋谱，中日韩三个棋院历史上所有有记载的九段棋谱也就四五十万盘，要达到上亿的数据其实是靠机器跟机器自己下棋来解决很多数据稀缺的问题。
天壤借助数据生成的方法快速地迭代、提升模型精调效果。九张我们机器生成的银行票据，模拟了各种效果的数据，比如字体偏移、复印效果带噪点、拍照时闪光过曝、纸张折叠、透视的效果或者打印机漏帧的现象，都可以通过图像处理的方法去模拟和精调，通常会得到很好的效果。
基于这样的技术，用上亿数据、极大算力的大模型，通过时间把它预训练好，再结合具体问题的小数据，实现一个快速迭代的AI应用的场景就走通了。借助数据增强、图像生成的方法去补充一些机器快速标注的数据，一天时间就可以得到上百万上千万的类似数据，可以快速地把具有上亿、几十亿参数的神经网络的精度调得非常高，。