Jeff De2021谷歌年度 Jeff( 七 )

计算机视觉的大规模应用以获得新的洞察力
过去十年，计算机视觉的进步使计算机能够用于不同科学领域的各种任务。比如，在神经科学中，自动重建技术可以从脑组织薄片的高分辨率电子显微镜图像中恢复脑组织的神经结缔结构。
前几年，谷歌为果蝇、小鼠和鸣禽的大脑创建了此类资源。但在去年，他们与哈佛大学的 Lichtman 实验室合作，分析了以相同粒度成像和重建的多种物种的大脑组织样本，并首次对人类皮层中的突触连接进行了大规模研究，该研究跨越了皮层所有层的多种细胞类型。
这项工作的目标是获得一种新的资源来帮助神经科学家研究人类大脑的复杂性。例如，下图显示了成人大脑中约 860 亿个神经元中的 6 个神经元。

文章插图

图注：来自人类皮层重建的单个人类枝形吊灯神经元，以及与该细胞连接的一些锥体神经元。
此外，计算机视觉技术还提供了强大的工具来应对更大甚至全球范围内的挑战。
例如，基于深度学习的天气预报方法，该方法使用卫星和雷达图像作为输入，结合其他大气数据，在长达 12 小时的预测时间内，产生比传统的基于物理的模型更准确的天气和降水预报。与传统方法相比，它们还可以更快地生成新的预测，这在极端天气中非常重要。

文章插图

图注：2020 年 3 月 30 日，不同模型预测科罗拉多州丹佛市 0.2 毫米/小时降水量的比较。左图：真实数据，来源（MRMS）。中间：MetNet-2 预测的概率图。右图：基于物理的 HREF 模型预测的概率图。MetNet-2 能够在预测中比 HREF 更早地预测风暴的开始以及风暴的起始位置，而 HREF 错过了起始位置，但很好地捕捉到了生长阶段。
准确记录建筑足迹对于人口估计和城市规划等一系列应用至关重要。在世界许多地方，包括非洲大部分地区，这些信息以前都是不可用的。
但新工作表明，将计算机视觉技术应用于卫星图像可以帮助识别大陆尺度的建筑边界。这种方法的相关结果已在 Open Buildings 数据集中发布，这是一个新的开放访问数据资源，其中包含 5.16 亿座建筑物的位置和足迹，覆盖非洲大陆的大部分地区。
Jeff Dean 团队还在与世界粮食计划署的合作中使用这个数据集，通过应用机器学习在自然灾害后提供快速的损害评估。

文章插图

在卫星图像中分割建筑物的示例。左：源图像；中：语义分割，每个像素都分配了一个置信度分数，表明它是建筑物还是非建筑物；右图：实例分割，通过对连接组件进行阈值化和分组获得。
这些案例反映出的一个共同主题是，ML 模型能够基于对可用视觉数据的分析，高效、准确地执行专门的任务，支持高度相关的下游任务。
自动化设计空间探索
另一种在多个领域取得成果的方法是，允许 ML 算法以自动化方式探索和评估问题的设计空间以寻找可能的解决方案。
比如在一个应用程序中，基于 Transformer 的变分自动编码器学习创建美观且有用的文档布局，并且可以扩展相同的方法来探索可能的家具布局。
另一种 ML 驱动的方法自动探索游戏规则的巨大设计空间，以提高游戏的可玩性和其他属性，使人类游戏设计师能够更快地创建令人愉快的游戏。

文章插图

图注：变分Transformer网络 (VTN) 模型的可视化，它能够提取布局元素（段落、表格、图像等）之间的有意义的关系，以生成逼真的合成文档（例如，具有更好的对齐和边距）。