趋势|谷歌大神 Jeff Dean 领衔,万字展望五大AI趋势( 四 )


趋势|谷歌大神 Jeff Dean 领衔,万字展望五大AI趋势
文章插图
图丨与普通的 Transformer 模型相比,NAS 发现的 Primer 架构的效率是前者的4倍。这幅图(红色部分)显示了 Primer 的两个主要改进:深度卷积增加了注意力的多头投影和 squared ReLU 的激活(蓝色部分表示原始 Transformer)。
NAS 还被用于发现视觉领域中更有效的模型。EfficientNetV2 模型体系结构是神经体系结构搜索的结果,该搜索联合优化了模型精度、模型大小和训练速度。在 ImageNet 基准测试中,EfficientNetV2 提高了 5 到 11 倍的训练速度,同时大大减少了先前最先进模型的尺寸。CoAtNet 模型架构是通过一个架构搜索创建的,该架构搜索采用了视觉 Transformer 和卷积网络的想法,以创建一个混合模型架构,其训练速度比视觉 Transformer 快 4 倍,并取得了新的 ImageNet 技术水平。
趋势|谷歌大神 Jeff Dean 领衔,万字展望五大AI趋势
文章插图
图丨与之前的 ImageNet 分类模型相比,EfficientNetV2 获得了更好的训练效率。
搜索的广泛应用有助于改进 ML 模型体系结构和算法,包括强化学习(RL,Reinforcement Learning)和进化技术(evolutionary techniques)的使用,激励了其他研究人员将这种方法应用到不同的领域。为了帮助其他人创建他们自己的模型搜索,我们有一个开源的模型搜索平台,可以帮助他们探索发现其感兴趣的领域的模型搜索。除了模型架构之外,自动搜索还可以用于发现新的、更有效的强化学习算法,这是在早期 AutoML-Zero 工作的基础上进行的,该工作演示了自动化监督学习算法发现的方法。
稀疏的使用:
稀疏性是算法的另一个重要的进步,它可以极大地提高效率。稀疏性是指模型具有非常大的容量,但对于给定的任务、示例或 token,仅激活模型的某些部分。2017 年,我们推出了稀疏门控专家混合层(Sparsely-Gated Mixture-of-Experts Layer),在各种翻译基准上展示了更好的性能,同时在计算量上也保持着一定的优势,比先前最先进的密集 LSTM 模型少 10 倍。最近,Switch Transformer 将专家混合风格的架构与 Transformer 模型架构结合在一起,在训练时间和效率方面比密集的 T5-Base Transformer 模型提高了 7 倍。GLaM 模型表明,Transformer 和混合专家风格的层可以组合在一起,可以产生一个新的模型。该模型在 29 个基准线上平均超过 GPT-3 模型的精度,使用的训练能量减少 3 倍,推理计算减少 2 倍。稀疏性的概念也可以用于降低核心 Transformer 架构中注意力机制的成本。
趋势|谷歌大神 Jeff Dean 领衔,万字展望五大AI趋势
文章插图
图丨BigBird 稀疏注意模型由全局 tokens(用于处理输入序列的所有部分)、局部 tokens(用于处理输入序列的所有部分)和一组随机 tokens 组成。从理论上看,这可以解释为在 Watts-Strogatz 图上添加了一些全局 tokens。
就计算效率而言,在模型中使用稀疏性显然是一种具有很高潜在收益的方法,而就在这个方向上进行尝试的研究想法而言,我们只是触及了表面。
这些提高效率的方法中的每一种都可以结合在一起,这样,与美国平均使用 P100 GPUs 训练的基线 Transformer 模型相比,目前在高效数据中心训练的等效精度语言模型的能源效率提高了 100 倍,产生的 CO2e 排放量减少了 650 倍。这甚至还没有考虑到谷歌的碳中和(carbon neutral),100% 的可再生能源抵消。
趋势3:机器学习正变得对个人和社区更加有益随着 ML 和硅硬件(如 Pixel 6 上的 Google Tensor 处理器)的创新,许多新体验成为可能,移动设备能够更持续有效地感知上下文和环境。这些进步提高了设备的可访问性和易用性,同时计算能力也有提升,这对于移动摄影、实时翻译等流行功能至关重要。值得注意的是,最近的技术进步还为用户提供了更加个性化的体验,同时加强了隐私保护。