Jeff De2021谷歌年度 Jeff( 五 )

2017 年，谷歌引入了稀疏门控混合专家层，该层在各种翻译基准上展示了更好的结果，同时使用的计算量比以前最先进的密集 LSTM 模型少 10 倍。
最近，Switch Transformers 将混合专家风格的架构与 Transformer 模型架构相结合，与密集的 T5-Base Transformer 模型相比，训练时间和效率提高了 7 倍。
GLaM 模型表明，Transformer 和混合专家风格的层可以结合起来生成一个模型，该模型在 29 个基准测试中平均超过 GPT-3 模型的准确性，而训练的能耗减少了 3 倍，推理的计算量减少了 2 倍。稀疏性的概念也可以用于降低Transformer 架构中注意力机制的成本。

文章插图

图注：BigBird 稀疏注意力模型由关注输入序列所有部分的全局标记、局部标记和一组随机标记组成。从理论上讲，这可以解释为在 Watts-Strogatz 图上添加一些全局标记。
在模型中使用稀疏性，显然是一种在计算效率方面具有非常高潜力的方法。Jeff Dean 表示，谷歌只是在这个方向上触及了皮毛。
与使用 P100 GPU 训练的基线 Transformer 模型相比，这些提高效率的方法中的每一种都可以组合在一起，可将高效数据中心训练的等效精度语言模型的能源效率提高约 100 倍，产生的二氧化碳排放量减少约 650 倍。
Jeff Dean表示，其团队很快就会发表更为详细的博客文章分析 NLP 模型的碳排放趋势。

趋势3：机器学习正推动个人和社区的发展

ML 和诸如手机上的Tensor 处理器等硅基硬件的创新，使得移动设备可以更持续有效地感知周围环境，而这将为用户带来一系列新的体验。
他认为这种进步不仅提高了其可及性、易用性，而且提升了计算的能力，这对改善移动摄影、实时翻译等功能也至关重要。值得注意的是，这种最新的技术在为用户提供更加个性化体验的同时，还加强了隐私保障措施。
目前，使用手机摄像来记录日常生活或进行艺术表达的热度空前。Jeff Dean 认为，ML 在计算摄影中的巧妙运用，可以不断促进手机相机功能的提升，使其操作起来更加容易，也可以提高拍摄性能，产生更高质量的图像。
比如，经过改进的HDR+，在非常低的光线下就可以很好地处理人像，使相机更具包容性，并且适用于所有肤色，可以拍摄出能够达到摄影师预想视觉效果并且更符合主题的照片。
不仅如此，基于 ML 的 Google Photos 工具，像电影照片、降噪、模糊以及魔术橡皮擦等，可以进一步完善照片。

文章插图

图注：HDR+ 从一连串全分辨率原始图像开始，每个图像都有相同的曝光不足（左）。融合后的图像减少了噪点并增加了动态范围，从而获得了更高质量的最终图像（右）。
除了使用手机进行创作外，Jeff Dean 还列举了人们依靠手机进行跨语言和跨模式的实时沟通的例子，比如在消息应用程序中使用实时翻译，在通话交流中使用实时字幕等。
得益于自监督学习和噪声学生训练（Noisy Student Training）等技术的进步，语音识别的准确率在重音、嘈杂环境或语音重叠和多语言环境下，都有明显提高。基于从文本到语音合成方面的进展，越来越多的平台推出了朗读技术，允许人们用听的方式获取网页或文章内容，使信息更容易跨越模态和语言的障碍。
稳定、实时生成的翻译以及高质量、稳定、有保障的直接语音翻译，为使用不同语言交流的人们提供了更好的用户体验，机器翻译中的实时语音翻译功能也已得到极大改善。