趋势|谷歌大神 Jeff Dean 领衔，万字展望五大AI趋势( 九 )

基于用户在线产品活动的推荐系统是研究的重点领域。由于这些推荐系统通常由多个不同部分组成，理解它们的公平性往往需要深入了解单个部分以及各个部分组合在一起时的行为。最近的研究工作揭示了提高单个部分和整个推荐系统的公平性的方法，有助于更好地理解这些关系。此外，当从用户的隐藏活动中学习时，推荐系统以一种无偏差的方式进行学习。因为从以前用户所展示的项目中直接学习的方法中会表现出很明显的偏差。并且如果不对这种偏差进行纠正，推荐产品被展示的位置越显眼，它们就越容易被频繁推荐给未来的用户。
与推荐系统一样，上下文环境在机器翻译中也很重要。因为大多数机器翻译系统都是独立地翻译单个句子，并没有额外的上下文环境。在这种情况下，它们往往会加强与性别、年龄或其他领域有关的偏见。为此，我们长期以来一直在研究如何减少翻译系统中的性别偏见。为了帮助翻译界研究，去年我们基于维基百科传记的翻译来研究翻译中的性别偏见，并发布了一个数据集。
部署机器学习模型的另一个常见问题是分布转移：如果训练模型的数据统计分布与输入模型的数据统计分布不一致，那么有时模型的行为是不可预测的。最近的研究中，我们使用 Deep Bootstrap 框架来比较现实世界和“理想世界”（ideal world）的区别，前者的训练数据是有限的，而后者拥有无限的数据。更好地理解模型在这两种情况下（真实与理想）的行为，可以帮助我们开发出更适用于新环境的模型，并减少在固定训练数据集上的偏差。
尽管人们对机器学习算法和模型开发的工作有极大的关注，但研究者们对于数据收集和数据集的管理往往关注较少，但这些研究也非常重要，因为机器学习模型所训练的数据可能是下游应用中出现偏见和公平性问题的潜在原因。分析机器学习中的数据级联可以帮助我们识别机器学习项目生命周期中，可能对结果产生重大影响的环节。这项关于数据级联的研究已经在修订后的 PAIR 指南中为数据收集和评估提供了证据支持，该指南主要面向的是机器学习的开发人员和设计人员。

文章插图
图丨不同颜色的箭头表示各种类型的数据级联，每个级联通常起源于上游部分，在机器学习开发过程中复合，并体现在下游部分。
更好地理解数据是机器学习研究的一个重要部分。我们对一些方法进行研究，来更好地理解特定的训练实例对机器学习模型的影响，这可以帮助我们发现和调查异常数据，因为错误标记的数据或其他类似的问题可能会对整个模型行为产生巨大的影响。同时，我们还建立了“了解你的数据”（Know Your Data）工具，以帮助机器学习研究人员和从业人员更好地了解数据集的属性。去年，我们还进行了案例研究，教你如何使用“了解你的数据”工具来探索数据集中的性别偏见和年龄偏见等问题。

文章插图
图丨“了解你的数据”截图显示了描述吸引力和性别词汇之间的关系。例如，“有吸引力的”和“男性/男人/男孩”同时出现 12 次，但我们预计偶然出现的次数约为 60 次（比例为 0.2 倍）。另一方面，“有吸引力的”和“女性/女人/女孩”同时出现的概率是 2.62 倍，超过预计偶然出现的情况。
因为动态使用基准测试数据集在机器学习作领域中扮演着核心角色，了解它也很重要。尽管对单个数据集的研究已经变得越来越普遍，但对整个领域的动态使用数据集的研究仍然没有得到充分探索。在最近的研究工作中，我们第一个发表了关于动态的数据集创建、采用和重用的大规模经验性分析。这项研究工作为实现更严格的评估，以及更公平和社会化的研究提供了见解。