具有弱标记数据声音的大规模视听学习引用HaythamM.FayekandAnuragKumar.La

引用
HaythamM.FayekandAnuragKumar.LargeScaleAudiovisualLearningofSoundswithWeaklyLabeledData.
【具有弱标记数据声音的大规模视听学习】摘要
识别声音是计算音频场景分析和机器感知的一个关键方面。在本文中，我们主张声音识别本质上是一种多模态视听任务，因为使用音频和视觉模态比使用一种或另一种更容易区分声音。我们提出了一个视听融合模型，该模型学习从弱标记的视频记录中识别声音。所提出的融合模型利用注意机制来动态组合各个音频和视觉模型的输出。在大规模声音事件数据集AudioSet上的实验证明了所提出模型的有效性，该模型优于单模态模型以及最先进的融合和多模态模型。我们在Audioset上实现了46.16的平均精度(mAP) ，比现有技术高出大约4.35mAP（相对：10.4%）。
引言
声音识别本质上是一项多模式视听任务。因此，我们应该建立多模态的声音识别机器学习模型，其灵感来自人类如何感知声音。除了某些情况下减少不确定性之外，声音的视听学习可以导致对环境的更全面的理解。例如，可以设计闹钟来产生ChurchBell声音；虽然仅音频的声音识别模型可能会将声音标记为ChurchBell声音，这不会不正确，但它并不代表实际事件。因此，旨在对声音进行视听感知的系统将导致对这些现象的更好和更完整的理解。然而，大多数关于声音识别的先前工作都集中在学习仅仅从音频中识别声音。
在本文中，我们提出了基于融合的声音视听学习方法。我们提出了一些方法，可以学习将分别在每种模态上分别训练的单个音频和视觉模型结合起来。我们首先构建最先进的音频和视觉声音识别系统。然后我们提出了注意力融合模型来动态地结合这些音频和视觉模型。具体来说，我们的融合模型学会以特定样本的特定类的方式关注适当的模态。我们的模型专为弱监督学习而设计，我们使用弱标记数据训练模型。我们在最大的声音事件数据集Audioset上分析了我们提出的模型，并表明所提出的模型优于最先进的单模态模型、基线融合模型和多模态模型。结果和随后的分析证明了使用音频和视觉模式进行声音识别和注意力融合模型有效性的重要性。
针对声音的视听模型
我们在弱监督环境中学习声音事件，其中每个训练录音只提供录音级别的标签，没有时间信息。声音事件弱监督学习的基础是基于多实例学习(MIL) 。在MIL中，学习问题是根据包和各自的标签（B ， Y）来制定的；每个包都是实例的集合。如果包中至少有一个实例是正的，则包被标记为类的正， Y=1 。另一方面，如果包中的所有实例对于给定的类都是负的，那么标签是负的， Y=0 。对于弱标记的声音识别，标记为存在声音类别的录音成为该类别的正包，否则成为负包。
1.音频模型
设f是我们希望学习的函数；然后训练涉及到最小化以下的损失函数。
音频模型是一个ConvNet ，它将整个录音的对数缩放Mel-filter-bank特征表示映射到（多个）标签，通过最小化上述等式中定义的损失函数进行训练。所有录音的采样率为16kHz；音频记录中的16ms窗口获得了64个Mel-filter-bank表示，移动了10ms ，相当于每秒100帧的音频。
网络的整体架构如表1所示。第i个训练录音的损失函数定义为：
表1音频卷积神经网络(ConvNet)架构

文章图片
2.视觉模型
与音频模型类似，声音的视觉模型基于MIL框架。这里，整个视频是包，包的实例是视频的帧。具体来说，我们从视频中采样64帧以形成包。每个帧（实例）然后由从ResNet-152获得的2048个特征表示表示，在Imagenet上进行预训练。这产生了每个记录的视频包表示。我们通过对每个实例的特征表示求平均，获得每个包的单个2048维向量表示。这种将包映射到单个向量表示的想法以前被用于使MIL算法具有可扩展性。