具有弱标记数据声音的大规模视听学习
引用
HaythamM.FayekandAnuragKumar.LargeScaleAudiovisualLearningofSoundswithWeaklyLabeledData.
【具有弱标记数据声音的大规模视听学习】摘要
识别声音是计算音频场景分析和机器感知的一个关键方面 。 在本文中 , 我们主张声音识别本质上是一种多模态视听任务 , 因为使用音频和视觉模态比使用一种或另一种更容易区分声音 。 我们提出了一个视听融合模型 , 该模型学习从弱标记的视频记录中识别声音 。 所提出的融合模型利用注意机制来动态组合各个音频和视觉模型的输出 。 在大规模声音事件数据集AudioSet上的实验证明了所提出模型的有效性 , 该模型优于单模态模型以及最先进的融合和多模态模型 。 我们在Audioset上实现了46.16的平均精度(mAP) , 比现有技术高出大约4.35mAP(相对:10.4%) 。
引言
声音识别本质上是一项多模式视听任务 。 因此 , 我们应该建立多模态的声音识别机器学习模型 , 其灵感来自人类如何感知声音 。 除了某些情况下减少不确定性之外 , 声音的视听学习可以导致对环境的更全面的理解 。 例如 , 可以设计闹钟来产生ChurchBell声音;虽然仅音频的声音识别模型可能会将声音标记为ChurchBell声音 , 这不会不正确 , 但它并不代表实际事件 。 因此 , 旨在对声音进行视听感知的系统将导致对这些现象的更好和更完整的理解 。 然而 , 大多数关于声音识别的先前工作都集中在学习仅仅从音频中识别声音 。
在本文中 , 我们提出了基于融合的声音视听学习方法 。 我们提出了一些方法 , 可以学习将分别在每种模态上分别训练的单个音频和视觉模型结合起来 。 我们首先构建最先进的音频和视觉声音识别系统 。 然后我们提出了注意力融合模型来动态地结合这些音频和视觉模型 。 具体来说 , 我们的融合模型学会以特定样本的特定类的方式关注适当的模态 。 我们的模型专为弱监督学习而设计 , 我们使用弱标记数据训练模型 。 我们在最大的声音事件数据集Audioset上分析了我们提出的模型 , 并表明所提出的模型优于最先进的单模态模型、基线融合模型和多模态模型 。 结果和随后的分析证明了使用音频和视觉模式进行声音识别和注意力融合模型有效性的重要性 。
针对声音的视听模型
我们在弱监督环境中学习声音事件 , 其中每个训练录音只提供录音级别的标签 , 没有时间信息 。 声音事件弱监督学习的基础是基于多实例学习(MIL) 。 在MIL中 , 学习问题是根据包和各自的标签(B , Y)来制定的;每个包都是实例的集合 。 如果包中至少有一个实例是正的 , 则包被标记为类的正 , Y=1 。 另一方面 , 如果包中的所有实例对于给定的类都是负的 , 那么标签是负的 , Y=0 。 对于弱标记的声音识别 , 标记为存在声音类别的录音成为该类别的正包 , 否则成为负包 。
1.音频模型
设f是我们希望学习的函数;然后训练涉及到最小化以下的损失函数 。
音频模型是一个ConvNet , 它将整个录音的对数缩放Mel-filter-bank特征表示映射到(多个)标签 , 通过最小化上述等式中定义的损失函数进行训练 。 所有录音的采样率为16kHz;音频记录中的16ms窗口获得了64个Mel-filter-bank表示 , 移动了10ms , 相当于每秒100帧的音频 。
网络的整体架构如表1所示 。 第i个训练录音的损失函数定义为:
表1音频卷积神经网络(ConvNet)架构
文章图片
2.视觉模型
与音频模型类似 , 声音的视觉模型基于MIL框架 。 这里 , 整个视频是包 , 包的实例是视频的帧 。 具体来说 , 我们从视频中采样64帧以形成包 。 每个帧(实例)然后由从ResNet-152获得的2048个特征表示表示 , 在Imagenet上进行预训练 。 这产生了每个记录的视频包表示 。 我们通过对每个实例的特征表示求平均 , 获得每个包的单个2048维向量表示 。 这种将包映射到单个向量表示的想法以前被用于使MIL算法具有可扩展性 。
- 弱电|强电与弱电的基本概念、区别及布线要求详解,建议收藏!
- 华为|普乐之声Max SR 5.1回音壁:观影体验提升明显,低音质感尚显偏弱
- 审查|德国监管机构:未发现任何证据表明小米手机具有“审查”功能
- 普乐之声Max SR5.1回音壁:观影体验提升明显,低音质感尚显偏弱
- 认证|办理电话号码标记认证的作用和好处?怎么办理的?
- 耳机|选择它只因为对手太弱了,飞傲K5 Pro ESS使用分享
- 酷睿处理器|具有额外三级缓存的中国酷睿 i5-12490F
- 小米科技|小米8红米k20pro,刚发布时候是3000多,断流也不弱
- 病例|奥密克戎再研判:毒性是否减弱?疫苗还有效吗?
- 为了方便色弱人群更好地观看视频内容|哔哩哔哩色弱模式切换功能怎么设置:开启步骤介绍