触觉|企业加快智能化转型 大模型“画龙”小数据“点睛”( 二 )


如自然语言处理(NLP)领域的大模型 , 如果要利用它完成如对话、问答等下游任务 , 只需要使用这个下游任务中数量很小的数据 , 在这个大模型之上进行微调 , 就能达到不错的效果 。 一些研究成果也表明 , 只需要原来建立专属模型5%—10%的数据样本用于大模型的数据微调 , 就能得到和专属模型一样的精度 。
“从大模型转向小模型 , 实现一个模型做多个任务 , 可以说是目前行业发展中的一个转变 。 ”王金桥说 , 这样不仅降低了开发难度 , 还大大减少了开发成本 。 以前 , 每个算法都需要一个深度学习专家去设计和训练 , 现在只需要在大模型之下进行微调 , 模型的设计和架构也变得相对简单 。 中小型企业只需要在大模型上 , 自己上传数据就可以完成 。
此外 , 利用这种方法 , 模型的误报率也会减少 。 基础模型见过丰富多彩的数据和场景 , 在处理具体任务的时候就具备了海量知识储备 , 有更充足的准备去应对具体的小场景应用 。
不过吴恩达在访谈中也表示 , 预训练只是要解决难题的一小部分 , 更大的难题是提供一个工具让使用者能够选择正确的数据用于微调 , 并用一致的方式对数据进行标记 。 面对大数据集的应用时 , 开发者的通常反应都是如果数据有噪音也没关系 , 所有数据照单全收 , 算法会对其进行平均 。 但是 , 如果研究人员能够开发出用来标记出数据不一致地方的工具 , 为使用者提供一种非常有针对性的方法来提高数据质量 , 那这将是获得高性能系统的更有效的方法 。
多模态或是大模型未来发展方向
基础模型作为生产众多小模型的“基座” , 性能尤为重要 。 其认知能力越接近人类 , 在此之上产生的小模型性能也将越优异 。
在探索外部环境的时候 , 人类具备视觉、听觉、触觉等多种认知手段 , 并通过语言对话等形式实现互动交流 。 其中视觉得到的信息约占70% , 听觉、触觉等获得的信息约占30% 。 “同样 , 要使得大模型的性能更加优秀 , 更趋近人类的认知能力 , 就涉及到训练中的数据融合问题 。 ”王金桥指出 , 我们熟知的语言生成模型GPT-3 , 能够生成流畅自然的文本 , 并完成问答、翻译、创作小说等一系列NLP任务 , 甚至可以进行简单的算术运算 。 但其和外界交互的主要方式还是进行文本交流 , 缺乏图像、视频等多模态融合 。
每一种信息的来源或者形式 , 都可以称为一种模态 。 如人有触觉、听觉、视觉、嗅觉;信息的媒介有语音、视频、文字等 。 人的认知模型可以说是一个多模态的集合 。
要让基础模型的预训练更接近人类的认知模型 , 也需要进行多模态融合 。 即让模型通过机器学习的方法实现处理和理解多源模态信息的能力 , 如图像、视频、音频、语义之间的多模态学习 。 多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索 。
【触觉|企业加快智能化转型 大模型“画龙”小数据“点睛”】“这一两年 , 大模型的数量呈现爆发式增长 , 且有从单一模态模型转向多模态模型的趋势 。 ”王金桥说 , 具备了多模态能力的基础模型 , 在具体应用场景中健壮性更好 , 在异常和危险情况下系统的生存能力更强 , 今后多模态基础模型或将成为未来基础模型发展的一个重要方向 。