文本|多模态、万亿参数、生成语音，吴恩达回顾人工智能2021 芯片|云途|eps|电动尾门|mcu|亿元

文章插图
智东西（公众号：zhidxcom）
作者 | ZeR0
编辑 | 漠影
智东西12月31日报道，近日，人工智能学术大牛吴恩达（Andrew Ng）在其主编的人工智能周讯《The Batch》上发表文章，回顾2021年全球人工智能五大进展，并展望2022年后的人工智能技术发展前景。
这五大进展分别是：多模态AI起飞、万亿参数、无声之声、通用架构、政府制定法规。
一、多模态AI起飞虽然GPT-3和EfficientNet等分别针对文本和图像的模型是深度学习一些最引人注目的成功的原因，但找到文本和图像之间关系的方法取得了令人印象深刻的进步。
发生的事：OpenAI实现图像和文本匹配的CLIP和根据输入文本生成对应图像的Dall·E开启了多模式学习的重要一年；DeepMind的Perceiver IO对文本、图像、视频和点云进行分类；斯坦福大学的ConVIRT在医疗X光影像中添加了文本标签。
驱动故事：虽然最新的多模态系统大多是实验性的，但也有一些现实世界的应用进展。
开源社区将CLIP与生成对抗网络相结合，打造了引人注目的数字艺术作品。
艺术家Martin O’Leary使用Samuel Coleridge的史诗《忽必烈汗（Kubla Khan）》作为输入，生成充满迷幻色彩的“Sinuous Rills”。
【文本|多模态、万亿参数、生成语音，吴恩达回顾人工智能2021】Facebook表示其多模式仇恨言论检测器标记并删除了社交网络中97%的辱骂及有害内容。该系统能根据文本、图像和视频在内的10种数据类型，将模因和其他图像文本配对归类为良性或有害。
谷歌表示在其搜索引擎中添加多模态（及多语言）功能。其多任务统一模型能返回文本、音频、图像和视频链接，以响应75种语言中任意一种的查询。
新闻背后：今年的多模态发展之势建立在数十年的研究基础上。早在1989年，约翰霍普金斯大学和加州大学圣地亚哥分校的研究人员就开发了一个根据说话者的音频和视觉数据对元音进行分类的系统。在接下来的20年间，各种研究小组尝试了数字视频库索引、基于视听数据对人类情绪进行分类等多模式应用。
事物发展：图像和文本是如此复杂，以至于在过去，研究人员只能专注于其中之一。通过这样做，他们开发了非常不同的技术。然而在过去十年里，计算机视觉和自然语言处理已经在神经网络得到有效融合，这为合并这两种模式的统一模型打开了大门，集成音频模型亦是如此。
二、万亿参数模型从“大”迈向“巨大”。
发生的事：谷歌Switch Transformer开启了2021年，这是首个超过1万亿参数的模型，参数规模高达1.6万亿。随后北京智源人工智能研究院推出更大的、拥有1.75万亿参数规模的大模型悟道2.0。
驱动故事：单纯增加模型参数没有什么神奇的，但随着处理能力和数据源的增长，深度学习“越大越好”的趋势已成为一项原则。
资金雄厚的人工智能公司正在以狂热的速度堆积参数，既为提高性能，也为秀肌肉，特别是在语言模型中，互联网为无监督和半监督的预训练提供了大量无标签的数据。
自2018年以来，参数竞赛从BERT（1.1亿）、GPT-2（15亿）、MegatronLM（83亿）、Turing-NLG（170亿）、GPT-3（1750亿）一路增长至今。
很好，但是：构建越来越大的模型的努力带来了挑战。巨模型开发人员必须克服四个巨大障碍：
（1）数据：大模型需要大量数据，但网络和数字图书馆等大型来源可能缺乏高质量的数据。例如，研究人员常用的BookCorpus是一本由11000本电子书组成的数据集，用于训练30多种大型语言模型，它可能会传播对某些宗教的偏见。人工智能社区越来越意识到数据质量至关重要，但在收集大规模高质量数据集的有效方法上尚未达成共识。