Jeff De2021谷歌年度 Jeff( 五 )


2017 年,谷歌引入了稀疏门控混合专家层,该层在各种翻译基准上展示了更好的结果,同时使用的计算量比以前最先进的密集 LSTM 模型少 10 倍。
最近,Switch Transformers 将混合专家风格的架构与 Transformer 模型架构相结合,与密集的 T5-Base Transformer 模型相比,训练时间和效率提高了 7 倍。
GLaM 模型表明,Transformer 和混合专家风格的层可以结合起来生成一个模型,该模型在 29 个基准测试中平均超过 GPT-3 模型的准确性,而训练的能耗减少了 3 倍,推理的计算量减少了 2 倍。稀疏性的概念也可以用于降低Transformer 架构中注意力机制的成本。
Jeff De2021谷歌年度 Jeff
文章插图

图注:BigBird 稀疏注意力模型由关注输入序列所有部分的全局标记、局部标记和一组随机标记组成。从理论上讲,这可以解释为在 Watts-Strogatz 图上添加一些全局标记。
在模型中使用稀疏性,显然是一种在计算效率方面具有非常高潜力的方法。Jeff Dean 表示,谷歌只是在这个方向上触及了皮毛。
与使用 P100 GPU 训练的基线 Transformer 模型相比,这些提高效率的方法中的每一种都可以组合在一起,可将高效数据中心训练的等效精度语言模型的能源效率提高约 100 倍,产生的二氧化碳排放量减少约 650 倍。
Jeff Dean表示,其团队很快就会发表更为详细的博客文章分析 NLP 模型的碳排放趋势。

3

趋势3:机器学习正推动个人和社区的发展
ML 和诸如手机上的Tensor 处理器等硅基硬件的创新,使得移动设备可以更持续有效地感知周围环境,而这将为用户带来一系列新的体验。
他认为这种进步不仅提高了其可及性、易用性,而且提升了计算的能力,这对改善移动摄影、实时翻译等功能也至关重要。值得注意的是,这种最新的技术在为用户提供更加个性化体验的同时,还加强了隐私保障措施。
目前,使用手机摄像来记录日常生活或进行艺术表达的热度空前。Jeff Dean 认为,ML 在计算摄影中的巧妙运用,可以不断促进手机相机功能的提升,使其操作起来更加容易,也可以提高拍摄性能,产生更高质量的图像。
比如,经过改进的HDR+,在非常低的光线下就可以很好地处理人像,使相机更具包容性,并且适用于所有肤色,可以拍摄出能够达到摄影师预想视觉效果并且更符合主题的照片。
不仅如此,基于 ML 的 Google Photos 工具,像电影照片、降噪、模糊以及魔术橡皮擦等,可以进一步完善照片。
Jeff De2021谷歌年度 Jeff
文章插图

图注:HDR+ 从一连串全分辨率原始图像开始,每个图像都有相同的曝光不足(左)。融合后的图像减少了噪点并增加了动态范围,从而获得了更高质量的最终图像(右)。
除了使用手机进行创作外,Jeff Dean 还列举了人们依靠手机进行跨语言和跨模式的实时沟通的例子,比如在消息应用程序中使用实时翻译,在通话交流中使用实时字幕等。
得益于自监督学习和噪声学生训练 (Noisy Student Training)等技术的进步,语音识别的准确率在重音、嘈杂环境或语音重叠和多语言环境下,都有明显提高。基于从文本到语音合成方面的进展,越来越多的平台推出了朗读技术,允许人们用听的方式获取网页或文章内容,使信息更容易跨越模态和语言的障碍。
稳定、实时生成的翻译以及高质量、稳定、有保障的直接语音翻译,为使用不同语言交流的人们提供了更好的用户体验,机器翻译中的实时语音翻译功能也已得到极大改善。