Percy Liang、李飞飞等百余位学者联名发布：「基础模型」的机遇与挑战( 四 ) 撰文|赵言

文章图片
基础模型的五个关键特性:表现能力（expressivity）、可扩展性（scalability);、多模态（multimodality）;记忆能力（memorystorage)、组合性(compositionality) 。
2）模型训练
模型对海量数据的训练，目标在于拟合真实环境的数据分布。文章从数学角度详细说明了模型如何从数据中学习和获取能力，并进一步指出，基础模型未来的训练目标将反映两个变化:
从系统参数和评价衍生原则选择；
跨数据源、多模态、可扩展的统一训练方法。
3）模型适应性
模型适应性指，根据训练好的基础模型经过微调（fine-tuning)的方法使得基础模型在特定领域和需求情况下，仍能很好的执行功能。对模型适应性的基础研究，将不仅有利于基础模型的在单一任务的适配度提高，更有助于促进基础模型的评估和约束研究，减少基础模型的缺陷。

文章图片
在适应性中，基础模型被转换为应用模型（底部一行），以适配特定应用场景的信息理解和行为约束。
4）模型评估
评估是跟踪模型进展、理解模型的重要途径。同时记录基础模型已经拥有能力和产生的数据偏见，有助于研究者加深基础模型的原理性认识。
基础模型的评估问题，由于其应用任务不能确定，对机器学习中标准评估范式，带来了新的挑战。
为解决上述问题，研究者将基础模型的评估问题与特定任务的评估问题区别开，通过内在评估、外在评估和评价设计明确步骤，建立了基础模型的全新评估框架。
3.2模型的数据层面
数据是基础模型的命脉;模型的训练数据在很大程度上决定了模型能够获得什么样的能力。数据的中心性并不是基础模型所独有的，以数据为中心的人工智能研究表明，管理、理解和记录用于训练机器学习模型的数据具有普遍的重要性。
3.3模型的系统性分析
1）系统协同设计

文章图片
模型和硬件的发展曲线，和算力的需求和供给情况
计算机系统决定了基础模型实际上可以达到的性能。计算机系统是基础模型在数据和模型大小方面扩展的关键瓶颈。为了确保研究者能够在时间和成本方面有效地培训下一代基础模型，需要算法、模型、软件和硬件的共同设计。
2）安全、稳定、鲁棒与隐私问题
基础模型的安全和隐私问题，目前很大程度上是未知的。已有工作表明，现在的基础模型存在安全漏洞和泄露隐私的风险。

文章图片
用于机器学习系统的基础模型安全性和隐私问题带来的风险和机遇
文章除了讨论基础模型在教育方向可能出现的各种应用外，还讨论了教育方面遇到的一些挑战，包括建立健全的教学技术和教学语言问题，以及其中存在的伦理问题，隐私和安全问题，教师的减少和AI模型与学生之间的适应性问题等。
4基础模型的带来的社会影响
基础模型所带来的社会影响广泛而深远，基础模型已经开始影响到社会生活中的公平正义、经济、环境、法律、道德等诸多基本问题。
4.1不平等
本节主要论述了模型在应用领域不同应用对象和场景的平等公正性。这主要包括，
（1）模型的内在特性产生的偏见现象，即训练数据不完备导致模型对部分受众尤其是少数人群产生不利影响；