又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……( 二 )
对规模横跨六个数量级的密集和稀疏语言模型的详细评估结果 , 以及由人类评估员建立的基线结果 。
文章图片
BIG-bench支持两种类型的任务:JSON和编程任务 , 其中大约80%的基准任务是JSON任务 。
JSON任务由JSON文件定义 , 该文件包含由输入和目标组成的示例列表 。 通过使用标准指标(如ROUGE)或基于模型分配的概率(如回答多项选择题) , 将生成的模型输出与目标进行比较来评估性能 。 基于示例的JSON任务规范还允许进行简单的少样本评估 。
另外大约20%的基准任务是程序化的 , 它们用Python编写 , 能够在多轮查询中直接与模型交互 , 并且能够使用自定义度量来衡量性能 。 使用模型对象调用编程任务 , 可以使用以下方法查询模型:
文章图片
2BIG-bench的评估发现作者团队在BIG-bench上评估了多个语言模型的能力 , 模型大小从数百万到数千亿个参数 , 包括OpenAI的GPT模型、Google内部密集transformer架构和Switch式稀疏transformer的性能等等 。
【又一篇超百名作者的 AI 论文问世!442位作者耗时两年发布大模型新基准 BIG-bench……】尽管语言模型因其大规模而具有良好的性能 , 但相比于人类 , 它们在BIG-bench上的表现仍然很差 。
文章图片
他们还评估了谷歌自家的PaLM模型 , 结果表明其性能击败了在PaLM之前的其他模型(狗头) , 尽管PaLM仍然低于最好的人类评分者(如下图中的深蓝色虚线) , 但它已经超过了BIG-benchLite分区上平均人类评分者(如下图中的蓝色虚线) 。
文章图片
在一些任务上 , 语言模型的性能随规模的增大而平稳提升;而在另一些任务上 , 语言模型会在某个特定规模上突然产生突破性的表现 。
文章图片
经过评估 , 他们还发现 , 随着模型规模的扩大 , 它们的社会偏见性越来越突出 。 对此 , 一个可能解释是较大的模型在匹配其训练集中的偏差方面做得更好 。 不过 , 当上下文清楚表明偏见不可取时 , 偏见就会随着规模的扩大而减少 。
这一结果强调了针对机器学习系统公平性的研究、工程和政策努力的重要性 。
文章图片
要解决模型中的社会偏见问题 , 作者团队给出三个发现:1)在上下文广泛或模棱两可的情况下 , 偏见通常会随着规模的扩大而增加;2)在狭窄、明确的上下文中 , 偏差会随着规模的增大而减小;3)可以通过选择适当的提示来引导偏见 。
文章图片
图注:对于明确或积极提示的上下文 , 偏差可能会随着规模的变化而减少 , 或更稳定
他们还发现 , 模型在英语任务上的表现优于非英语任务 , 在涉及低资源语言的任务上表现尤其糟糕 。 在一些情况下 , 低资源语言任务的性能没有随着模型规模的增大而提高 , 而相应的英语任务的性能则会随着规模的增大而提高 。
文章图片
总体上 , 稀疏模型的性能与使用多2倍推理成本的密集模型一样好 , 它们的校准效果与使用多出约10倍推理计算的密集模型一样好 。
- 苹果|华为超越苹果,编织这个谎言的人,用意是什么?
- 上周|科技媒体xda发文,ipados16又把差距拉大了
- 苹果|价值翻了2700多倍:乔布斯签名的支票拍卖估值超16万元
- 华为|重磅!华为又有两款终端新机已经获得入网审核!
- 酷比魔方|跑分超87万,不输万元机,酷比魔方iWORK GT二合一平板性能篇
- 微信|微信终于被超越, 中国新的社交巨头崛起, 成功冲到手机下载榜第一!
- 小米科技|清新又清凉-小米桌面移动风扇测评
- 京东PLUS会员超级补贴来了。|京东plus会员超级补贴来了,第二轮已经开启
- oppo reno|产品力超强,2022年OPPO 国内市场出货量排名第一
- 三星堆又现新发现!携程导游:三星堆文博游已经连火两年