万字长文!DeepMind科学家总结2021年的15个高能研究

万字长文!DeepMind科学家总结2021年的15个高能研究
文章图片
新智元报道
编辑:LRS
【新智元导读】2021年ML和NLP依然发展迅速 , DeepMind科学家最近总结了过去一年的十五项亮点研究方向 , 快来看看哪个方向适合做你的新坑!
2021年 , 借助更强大的算力、数据和模型 , 机器学习和自然语言处理的技术发展依然十分迅速 。
万字长文!DeepMind科学家总结2021年的15个高能研究
文章图片
最近 , DeepMind科学家SebastianRuder总结了15个过去一年里高能、有启发性的研究领域 , 主要包括:
UniversalModels通用模型
MassiveMulti-taskLearning大规模多任务学习
BeyondtheTransformer超越Transformer的方法
Prompting提示
EfficientMethods高效方法
万字长文!DeepMind科学家总结2021年的15个高能研究】Benchmarking基准测试
ConditionalImageGeneration条件性图像生成
MLforScience用于科学的机器学习
ProgramSynthesis程序合成
Bias偏见
RetrievalAugmentation检索增强
Token-freeModels无Token模型
TemporalAdaptation时序适应性
TheImportanceofData数据的重要性
Meta-learning元学习
万字长文!DeepMind科学家总结2021年的15个高能研究
文章图片
SebastianRuder是伦敦DeepMind的一名研究科学家 。 在Insight数据分析研究中心获得自然语言处理和深度学习的博士学位 , 同时在柏林的文本分析初创公司AYLIEN担任研究科学家 。
1通用模型
通用人工智能一直是AI从业者的目标 , 越通用的能力 , 代表模型更强大 。
2021年 , 预训练模型的体积越来越大 , 越来越通用 , 之后微调一下就可以适配到各种不同的应用场景 。 这种预训练-微调已经成了机器学习研究中的新范式 。
万字长文!DeepMind科学家总结2021年的15个高能研究
文章图片
在计算机视觉领域 , 尽管有监督的预训练模型如VisionTransformer的规模逐渐扩大 , 但只要数据量够大 , 在自监督情况下预训练模型效果已经可以和有监督相匹敌了 。
在语音领域 , 一些基于wav2vec2.0的模型 , 如W2v-BERT , 以及更强大的多语言模型XLS-R也已经展现了惊人的效果 。
与此同时 , 研究人员也发现了新的大一统预训练模型 , 能够针对以前研究不足的模态对(modalitypair)进行改进 , 如视频和语言 , 语音和语言 。
在视觉和语言方面 , 通过在语言建模范式中设定不同的任务 , 对照研究(controlledstudies)也揭示了多模态模型的重要组成部分 。 这类模型在其他领域 , 如强化学习和蛋白质结构预测也证明了其有效性 。
鉴于在大量模型中观察到的缩放行为(scalingbehaviour) , 在不同参数量规模下报告性能已经成为常见的做法 。 然而 , 预训练模型模型性能的提高并不一定能完全转化为下游任务的性能提升 。
总之 , 预训练的模型已经被证明可以很好地推广到特定领域或模式的新任务中 。 它们表现出强大的few-shotlearning和robustlearning的能力 。 因此 , 这项研究的进展是非常有价值的 , 并能实现新的现实应用 。
对于下一步的发展 , 研究人员认为将在未来看到更多、甚至更大的预训练模型的开发 。 同时 , 我们应该期待单个模型在同一时间执行更多的任务 。 在语言方面已经是这样了 , 模型可以通过将它们框定在一个共同的文本到文本的格式中来执行许多任务 。 同样地 , 我们将可能看到图像和语音模型可以在一个模型中执行许多共同的任务 。
2大规模多任务学习
大多数预训练模型都是自监督的 。 他们一般通过一个不需要明确监督的目标从大量无标签的数据中学习 。 然而 , 在许多领域中已经有了大量的标记数据 , 这些数据可以用来学习更好的表征 。