该研究与已知的“鸡尾酒会效应(cocktail party effect)”有关 。所谓“鸡尾酒会效应”,指的是人的一种听力选择能力,在这种情况下,注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音,该效应揭示了人类听觉系统中令人惊奇的能力,即我们可以在噪声中谈话 。
同理,谷歌的这项研究可以让人工智能模仿大脑,在一个充满干扰的环境中(例如到处都有其他的人在说话),将注意力集中在一个单独的物体(例如某一个人)的能力 。
人工智能模型通常很难以相同的效果调整外部输入,特别是当涉及包含多个声音的音频流时更是如此 。这已被证明是语音识别领域的主要挑战,这是当今神经网络的主要应用领域之一 。
谷歌表示,其研究人员通过开发一种考虑到不同类型信息的深度学习模型的做法克服了这一障碍:视觉输入 。该技术被设计用于处理视频,该人工智能可以分析剪辑中显示的人物的嘴部动作,以使每个人都能与他们发出的声音进行匹配 。一旦它建立起了必要的关联关系,模型就可以将单个的语音轨道分开 。
教会人工智能有效地完成这项任务并不是一件容易的事 。谷歌的研究人员从YouTube上收集了100,000个视频,提取了每个包含每个发言人声音的音频片段,然后将这些片段拼接成具有多个音轨的“合成鸡尾酒会” 。该小组使用这个数据集来训练模型,以便在各种条件下都能够将说话者的声音与其他声音分开 。
谷歌表示,结果是用户可以点击他们希望听到的人的脸部,并让视频中的其他说话的人自动静音 。该技术对这家搜索巨头来说有很多潜在的用途 。
对于初学者来说,谷歌可以在YouTube中使用这个人工智能版本,让用户调出剪辑中的一些声音 。对于在嘈杂的环境中录制的视频来说,这可能是一个特别大的便利,在这样的环境中有时候会难以听到发言者的声音 。
该人工智能也有可能会改善HaNGOuts和Meet——谷歌的视频会议服务——的用户体验,它能够让会议的参与者更容易地专注于特定的人的语音 。该搜索巨头甚至相信这项技术可以应用于医疗领域,例如可以开发出更复杂的助听器 。
【谷歌开发出一种能够模仿大脑“鸡尾酒会效应”的人工智能】
- 新苗小学400名同学要乘车去参观天文台,其中一种车最多可乘42人,每辆车200元,另一种车最多可乘54人,每
- 84消毒液是一种以次氯酸钠为主的高效消毒剂 84消毒液是碱性的还是酸性的
- 吸血鬼的传说是起源于哪一种动物
- 十二生肖第一种别称:鼠无牙、牛运粮、虎山君、兔捣药、龙四灵之 十二生肖别名和代号是什么
- 小米汤的做法,羊肉小米汤做法?
- 谷歌扩展商店要收美元,这钱怎么交?
- 什么是富氢水,富氢水分子式?
- 橄榄树该怎么整形修剪 橄榄树怎么整形修剪
- 舒芙蕾一般指蛋奶酥,甜品界公认的最难做的甜品,是一种法式蛋糕
- 光是一种物质还是现象,光是不是事物?