文本|多模态、万亿参数、生成语音,吴恩达回顾人工智能2021( 二 )


(2)速度:今天的硬件很难处理巨大的模型,当位反复进出内存时,这些模型可能会陷入困境。为了减少延迟,Switch Transformer背后的谷歌团队开发了一种方法,让每个token处理模型层的选定子集。他们的最佳模型比参数量只有1/30的模型快了约66%。同时,微软开发了DeepSpeed库,这个库并行处理数据、各层和层组,并通过在CPU和GPU之间划分任务来减少冗余处理。
(3)能耗:训练如此庞大的网络会消耗大量电能。2019年的一项研究发现,在8个英伟达P100 GPU上训练2亿参数的Transformer模型所造成的碳排放,几乎和一辆普通汽车五年驾驶总排放量一样多。有望加速人工智能的新一代芯片,如Cerebras的WSE-2和谷歌的最新TPU,可能有助于减少排放,同时风能、太阳能和其他更清洁的能源会增加。
(4)速度:这些大模型太大了,很难在消费者或边缘设备上运行,大规模部署它们需要通过互联网访问(较慢)或精简版实现(功能较弱)。
发展现状:自然语言模型排行榜仍由参数高达数千亿的模型主导,其部分原因是处理万亿多个参数难度很大。毫无疑问,他们的万亿级继任者将在适当的时候取代他们。这种趋势看不到尽头:有传言称OpenAI的GPT-3继任者将包含100万亿个参数。
三、无声之声音乐家和电影制片人采用人工智能作为音频制作工具箱的标准部分。
发生的事:专业媒体制造商使用神经网络,生成新声音并修改旧声音。这令配音演员感到危机。
驱动故事:生成模型可以从现有录音中学习,创建令人信服的复制品。一些制作人使用该技术生成原始声音或复制现有声音。
例如,美国初创公司Modulate使用生成对抗网络实时合成新声音。它使游戏玩家和语音聊天者能够构建虚拟角色中;跨性别者使用它来调整他们更接近性别身份的声音。
Sonantic是一家专门从事合成声音的初创公司,为2015年失声的演员Val Kilmer创造了一种新的声音。该公司根据这位演员作品中的音频训练了模型。
电影制片人摩根·内维尔聘请了一家软件公司,为他的纪录片《Roadrunner: A Film About Anthony Bourdain》重现已故巡回演出主持人Anthony Bourdain的声音。此举引起了Bourdain的遗孀的愤怒,她说她没有给予许可。
挺好,但是:Bourdain的遗孀并不是唯一一个被人工智能模仿已故者的能力所困扰的人。配音演员对这项技术威胁到他们的生计表示担忧。2015年电子游戏《巫师3:狂野狩猎》的粉丝对同人版本重现原配音演员的声音感到不安。
新闻背后:最近将生成音频纳入主流,是在早期研究成果的延续。
OpenAI的Jukebox在一个包含120万首歌曲的数据库上进行了训练,它使用自动编码器、Transformer和解码器流水线,以从Elvis到Eminem的风格制作完全实现的录音(歌词由公司的工程师共同编写)。
2019年,一位匿名人工智能开发人员设计了一种技术,允许用户在短短15秒内从文本行中复制动画和电子游戏角色的声音。
现状:生成音频及视频的模型使媒体制作人不仅能够增强档案录音,还能从头开始创建新的、类似于声音的录音。但道德和法律问题正在增加。当人工智能取代配音演员时,他们应该如何获得补偿?谁有权将死者的克隆声音商业化?全新的人工智能生成的专辑有市场吗?它应该存在吗?
四、一个架构做所有事情Transformer架构正快速扩展其覆盖领域。
发生的事:Transformer最初是为自然语言处理而开发的,现在正在成为深度学习的利器。2021年,他们被用来发现新药、识别语言和绘画等。
驱动故事:事实证明,Transformer已经擅长视觉任务、预测地震以及蛋白质分类和生成。过去一年里,研究人员将他们推向了广阔的新领域。