趋势|谷歌大神 Jeff Dean 领衔,万字展望五大AI趋势( 十 )


对每个人来说,创建更具包容性和更少偏见的公共数据集是帮助改善机器学习领域的一个重要方法。2016 年,我们发布了开放图像(Open Images)数据集,它包含了约 900 万张图片,这些图片用图像标签标注,涵盖了数千个对象类别和 600 类的边界框标注。
去年,我们在开放图像扩展(Open Images Extended)集合中引入了包容性人物标注(MIAP)数据集。该集合包含更完整人类层次结构的边界框标注,每个标注都带有与公平性相关的属性,包括感知的性别和年龄范围。随着人们越来越致力于减少不公平的偏见,作为负责任的人工智能(Responsible AI)研究的一部分,我们希望这些标注能够鼓励已经使用开放图像数据集的研究人员在他们的研究中纳入公平性分析。
我们的团队并不是唯一一个创建数据集来改善机器学习效果的团队,我们还创建了“数据集搜索”(Dataset Search)方法,使得无论来自哪里的用户都可以在我们的帮助下发现新的和有用的数据集。
社区互动:
谷歌非常重视应对网络暴力问题,包括使用极端语言,发表仇恨言论和散播虚假信息等。能够可靠、高效和大规模地检测到这些行为,对于确保平台安全至关重要,同时也能避免机器学习通过无监督学习的方式从网络上大量复制这些负面信息。在这方面,谷歌开创了领先的 Perspective API 工具。但是如何在大规模场景中精准地检测出有害信息仍然是一个复杂的问题。在最近,我们与不同的学术伙伴合作,引入了一个全面的分类法来应对不断变化的网络仇恨和网络骚扰情况。谷歌还对如何发现隐蔽性网络暴力,如微歧视进行了研究。通常,微歧视在网络暴力的问题中容易被忽视。我们发现,对微歧视这种主观概念进行数据注释的传统方法很可能将少数族裔边缘化。因此谷歌提出用多任务框架来解决问题的新的分类建模方法。此外,谷歌的 Jigsaw 团队与乔治华盛顿大学(George Washington University)的研究人员合作,通过定性研究和网络层面的内容分析,研究了极端的仇恨群体如何在社交媒体平台上散播虚假信息。
另一个潜在的问题是,机器学习算法生成的模型有时会产生缺乏证据支持的结果。为了在问题回答、总结和对话中解决这一问题,谷歌开发了一个新的框架来衡量算法结果是否可以归因于特定的来源。我们发布了注释指南,并证明可以使用这项可靠的技术来对候选模型进行评估。
模型的交互式分析和调试仍然是负责任地使用机器学习语言的关键。谷歌对 Language Interpretability Tool 的技术和功能进行了更新。更新包括对图像和表格数据的支持,从 What-If Tool 中继承下来的各种功能,以及 Testing with Concept Activation Vectors 技术对公平性分析的内置支持。机器学习系统的可解释性也是谷歌提出的“负责任的 AI 愿景”(Responsible AI vision)的关键部分。在与 DeepMind 的合作下,谷歌开始了解自我训练的AlphaZero国际象棋系统是如何获取人类的象棋概念的。
谷歌还在努力拓宽“负责任的人工智能”的视角和格局,使其超越西方的局限。一项最近的研究提出在非西方背景下,基于西方机构和基建的算法公平概念并不适用。研究为印度的算法公平研究提供了新方向和新途径。谷歌正在几大洲积极开展调查,以更好地了解人们对人工智能的看法和偏好。西方视角下的算法公平研究倾向于只关注少数几个问题,因此导致很多非西方背景下的算法偏见问题被忽略。为了解决这一差距,我们与密歇根大学(University Of Michigan)合作,开发了一种弱监督薄的自然语言处理(NLP)模型,以便在更广泛的地理文化语境中检测出语言偏见,反映人类在不同的地理环境中对攻击性和非攻击性语言的判断。