10月20日|第29届acm角度多媒体解耦模块在成都举行( 二 )


LSTC:BoostingAtomicActionDetectionwithLong-Short-Term-Context
10月20日|第29届acm角度多媒体解耦模块在成都举行
文章图片
10月20日|第29届acm角度多媒体解耦模块在成都举行
文章图片
相对于视频序列中的一般性运动检测 , 原子级的目标行为(如交谈 , 拾取 , 瞭望)的判断更加依赖于视频中上下文依赖关系的挖掘 , 同时这种依赖关系在不同的时间尺度上呈现若相关特性 。 本文将视频目标的行为与其以来关系解耦为稠密的短时上下文依赖(DenseShort-termContext)和稀疏的长时上下文依赖(SparseLong-termContext) , 并通过概率图模型将两者解耦为条件独立的交互关系分别辅助目标原子行为的判别 , 同时引入了一种近似高阶的注意力机制(High-OrderAttentionMechanism) , 在计算复杂度不提升的条件下 , 将传统的注意力模型从一对一推广到一对多的交互关系 。 在AVA以及Hieve等基准测试集上表明 , 这种长短时依赖独立推断的机制能够有效帮助行为检测器正确推断目标行为 。
ASFD:AutomaticandScalableFaceDetector
10月20日|第29届acm角度多媒体解耦模块在成都举行
文章图片
在目前主流的目标检测器的设计范式中 , 特征增强以及特征融合模块已经成为了增强特征判别能力 , 提升检测效果的必备组件 , 但是由于数据分布上的差异 , 一般性目标检测网络中的特征增强模块并不能在人脸检测场景中带来稳定的提升 。 为此 , 本文系统性地分析了数据分布差异对于特征增强和融合模块效果的影响 , 并据此针对人脸检测场景 , 提出了一个可微分的自动化特征增强模块搜索流程AutoFAE,同时 , 本文基于改搜索流程建立了用于网络搜索的超集 , 以满足不同推理速度约束下搜索到最优性能的模型结构 。 在主流的人脸检测数据集Wider-Face,FDDB上 , 本文搜索的人脸检测架构能够在相同的推理速度下达到更好的检测效果 。
AdaptiveNormalizedRepresentationLearningforGeneralizableFaceAnti-Spoofing
10月20日|第29届acm角度多媒体解耦模块在成都举行
文章图片
随着多样化人脸攻击形式的出现 , 活体检测的泛化性受到越来越多关注 。 现有方法往往直接对网络学习的特征进行约束 , 然而忽略了模型特征提取的过程 , 尤其是标准化的影响 。 针对该问题 , 本文提出了一种自适应标准化表征学习的活体检测新方法 。 具体而言 , 本文设计了一个自适应特征标准化模块(AFNM) , 该模块根据样本特征自适应地结合BN和IN标准化方式 。 并在在训练过程中结合元学习框架 , 在meta-test阶段重点学习AFNM模块 , 从而提升泛化性 。 此外 , 为进一步学习域无关的活体表征 , 本文设计了双重校准约束(DCC) , 包括域间兼容损失(IDC)和类间分隔损失(ICS) 。 多个学术数据集上实验结果表明我们方法优于现有方法 , 为实际场景下活体技术的应用提供了有效框架 。
RecycleNet:AnOverlappedTextInstanceRecoveryApproach
10月20日|第29届acm角度多媒体解耦模块在成都举行
文章图片
文本图像识别是理解多媒体媒介的关键技术手段 。 主流的设计范式关注独立文本行的精准识别 , 但这些方法在复杂真实场景如财务票据和学生作业簿上受到了严峻的挑战 。 简单通过优化识别方法本身或数据增强难以处理手写/印刷文本或印刷/印刷文本的套打(overlapping) 。 基于这个观察 , 本文介绍了RecycleNet , 一个自动分离套打文本实例的策略 。 RecycleNet的关键设计在于定位并重用(recycle)了文本实例间套打的像素区域 , 将这些区域归还到其归属的全部实例 , 保障了分离后实例的完整性 。 RecycleNet平行于现有的文本识别解决方案 , 可作为可插拔模块 , 用很小的开销提升现有识别基线的精度 。