10月20日|第29届acm角度多媒体解耦模块在成都举行

10月20日 , 第29届ACM国际多媒体会议(简称ACMMM)在成都正式举行 。 本次会议将针对单个媒体和跨界整合多媒体元素的最具创新性和影响力的顶级热点研究成果进行分享交流 。 此外 , 在视频编码、视觉识别、大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等研究方向有多场精彩的学术分享报告 , 将充分展示全球高校、研究机构及高新企业在多媒体研究方面的最新进展 。
作为世界多媒体领域最重要的顶级会议和中国计算机学会推荐的该领域唯一的A类国际学术会议 。 本届ACMMM吸引了国内外多媒体领域中的知名厂商和学者广泛参与 , 将有70场精彩报告 , 其中囊括了6场国内外顶尖学者的主旨报告、13场重磅专题研讨、51场国内外知名学者及学术新星的学术报告 。
10月20日|第29届acm角度多媒体解耦模块在成都举行
文章图片
其中 , 腾讯优图实验室9篇计算机视觉相关的优质论文成功入选 , 涵盖弱监督图像描述及定位、表格结构识别、人脸安全等多个研究方向 , 这些技术创新面向智慧城市、智慧文娱、智慧制造等场景的落地应用 , 助力进一步提升AI技术能力 , 推进全球人工智能的发展 。
深耕计算机视觉领域成效显著9篇论文入选彰显强大实力
DistributedAttentionforGroundedImageCaptioning
10月20日|第29届acm角度多媒体解耦模块在成都举行
文章图片
弱监督图像描述及定位近年来逐渐受到国内外研究机构以及工业界关注 。 该任务是指对给定的图像自动生成一句话描述图像的内容 , 同时预测出描述中名词对应的目标位置 。 已有的工作主要通过正则化技术依靠注意力机制在生成图像描述的同时预测名词对应的目标的位置 。 这些方法的性能距离全监督的图像描述及定位有很大的差距 。 其中最主要的问题在于 , 依靠注意力机制的大部分方法预测结果往往集中于目标的最具判别性的局部位置 , 无法完整的预测目标的整体内容 。 基于此 , 我们提出一种十分简单且有效的分布注意力机制 , 挑选多个语义相同但位置不完全重合的目标之后进行聚合 , 从而得到更加完整的目标位置 。 在公开的Flickr30KEntities数据集上 , 保持图像描述性能不降的情况下大幅刷新目标定位性能SOTA,与全监督的方法性能持平 。
Discriminator-freeGenerativeAdversarialAttack
深度学习网络容易受到对抗样本的影响 , 在图像上加入一些不显眼的扰动后基于DNN的识别任务可能失效 。 目前大多数对抗攻击方法基于梯度搜索 , 这类方法生成对抗样本的耗时长 , 也会受到显存资源不足的影响 。 基于生成的方法(GAN)可缓解这些问题 , 但这类方法一方面训练比较难收敛 , 另外生成的攻击样本效果和视觉质量不稳定 。 我们发现判别器在对抗生成网络中并非必不可少 , 提出基于显著性区域的对称自动编码器方法(SSAE) , 该方法由显著性响应模块(thesaliencymap)和特征角度正则解耦模块(theangle-normdisentanglement)组成 , 用生成的显著性响应图去关注标签相关的区域 , 不再依赖判别器 。 在图像识别和图像检索任务上的大量实验证明SSAE方法生成的攻击样本不仅可以在主流网络模型上攻击效果好 , 同时也具有很好的视觉质量 。
Show,ReadandReason:TableStructureRecognitionwithFlexibleContextAggregator
本文主要针对表格结构识别这一具有挑战性的问题进行研究 。 目前 , 业内方法往往采用基于图的上下文累积器 , 来稀疏地建模表格元素的上下文关系 。 然而 , 基于图的约束可能会引入过强的归纳偏置 , 无法充分地表示复杂的表格关系 。 为了让模型从数据中学习更合适的归纳偏置 , 本文引入Transformer作为上下文累积器 。 Transformer以密集上下文作为输入 , 同时由于的归纳偏置的弱化 , Transformer对数据的规模要求更高 , 并且训练过程可能会不稳定 。 为了解决上述问题 , 本文设计了FLAG(FLexiblecontextAGgregator)模块 , 它将Transformer与基于图的上下文累积器以一种自适应的方式结合在一起 。 基于FLAG , 本文设计了一个端到端的网络 , 称为FLAG-Net , 该网络不需要额外的OCR信息 , 并且可以灵活地调整密集上下文(densecontext)和稀疏上下文(sparsecontext)的累积 , 进行表格元素的关系推理 。 本文还进一步探索了FLAG中的上下文选择模式 , 这对于识别表格结构是至关重要的 。 在标准测试集上的实验结果表明 , 本文提出的FLAG-Net的性能大大超过业内其他方法 。