1370亿参数,谷歌带来新语言模型LaMDA,将实现更安全更高质量对话

如今 , 语言模型的能力越来越强 , 在各种任务中都发挥了很大的作用 。 其中 , 开放域对话(Open-DomainDialog)可能是最难以完成的一类任务 , 需要做到能够就任何主题进行对话 。
在对话任务中 , 除了生成人类认为合理、有趣且特定于上下文的响应之外 , 语言模型还须按照负责任的人工智能(ResponsibleAI)框架工作 , 以免生成无信息源证实的内容 。
近日 , 谷歌在以《LaMDA:对话应用程序的语言模型》(LaMDA:LanguageModelsforDialogApplications)为题的一篇论文中介绍了语言模型LaMDA在安全、可靠和高质量的对话方面取得的最新进展 。
据悉 , LaMDA模型具有1370亿个参数 , 通过微调采用Transformer架构的专用对话神经语言模型而构建 , 可以利用外部知识源展开对话 。
对于训练对话模型来说 , 定义目标和指标至关重要 。 LaMDA模型具有质量、安全和扎实性三个关键目标 , 每个目标有各自的衡量指标 。
质量上 , 谷歌将其拆分为合理性、特异性和趣味性(Sensibleness,Specificity,Interestingness , SSI)这三个方面 。
其中 , 合理性是指模型在对话中作出有实际意义的回应 , 如回应中没有出现常识性错误;特异性是指模型在对话中针对特定的上下文来响应 , 而不是在常规情形下的通用响应;趣味性是指模型作出了富有洞察力和智慧的回应 。
1370亿参数,谷歌带来新语言模型LaMDA,将实现更安全更高质量对话
文章图片
图|LaMDA模型对话(来源:谷歌)
安全上 , 谷歌在开发和部署负责任的人工智能方面有很大的进步 。 为避免出现各种偏见以及可能对用户造成伤害的内容 , 其用一组可限制模型输出对话的安全目标来组成安全指标 。
由于语言模型有时会输出貌似合理实际却与已知事实相悖的内容 , 谷歌对LaMDA模型的扎实性展开了研究 。
扎实性是指在外部世界声明上能够获得权威外部信息来源支持的百分比 。 但是 , 在这些来源中建立的LaMDA模型也无法完全保证所生成响应的准确性 , 所以谷歌允许用户及外部系统来源的可靠性来判断响应有效与否 。
此外 , 谷歌在论文介绍了LaMDA模型的预训练和微调阶段 。
预训练阶段 , 谷歌做了一个包含1.56T词汇的数据集 , 并将该数据集中的词汇标记为2.81TSentencePiecetoken , 接着通过GSPMD系统对LaMDA模型进行预训练 。
据了解 , 谷歌将经过预训练的LaMDA模型用于其自然语言处理的研究中 , 包括程序合成、零样本学习和风格迁移等 。
微调阶段 , 谷歌让LaMDA模型执行两类任务 , 一类是作出面向指定上下文自然语言回应的混合生成任务 , 另一类响应是否安全和高质量的分类任务 , 从而成为一个多任务模型 。
对话时 , LaMDA生成器会对面向的上下文生成几个候选回应 , 然后LaMDA分类器预测每个候选回应的SSI和安全分数 , 最后根据这两项数据的排名选出最佳回应 。
1370亿参数,谷歌带来新语言模型LaMDA,将实现更安全更高质量对话
文章图片
1370亿参数,谷歌带来新语言模型LaMDA,将实现更安全更高质量对话】图|LaMDA模型对话(来源:谷歌)
人类可以通过现存的工具和知识库来明确事实 , 而语言模型仅能依靠其内部参数来得到讯息 。
为此 , 谷歌做了一个人类与LaMDA模型交流的数据集 , 并通过该数据集对LaMDA模型的生成器和分类器进行微调 , 让其在与对话期间调用外部信息检索系统 , 以提高回应的扎实性 。
谷歌表示 , “在对LaMDA模型进行评估后得出 , 其在每个维度和所有模型大小情况下都显著优于预先训练的模型 。 无论微调与否 , 合理性、特异性和趣味性等质量指标通常会随模型参数量而提升 。 而安全性虽然无法仅根据模型缩放变化 , 但可以通过微调来提升 。 ”