有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
机器之心专栏
机器之心编辑部
来自之江实验室和浙江大学的研究者提出了一种再注意机制 , 旨在更有效地捕捉目标级别的语义信息 , 抑制背景干扰 , 实现更准确的目标定位能力 。
弱监督定位任务(Weaklysupervisedobjectlocalization,WSOL)仅利用图像级别的类别标签 , 就能实现目标级别的定位功能 , 因为其细粒度注释的最小化需求大大压缩了人工成本 , 于近年获得大量关注 。
由于缺乏目标级别标签的约束 , 仅利用图像标签进行分类训练 , 弱监督定位方法往往倾向于只定位图像中最具判别性的局部区域 , 难以涵盖整个物体区域 。 弱监督定位方法的局部聚焦缺陷是否和卷积神经网络局部特征关联性相关?Transformer类网络结构的长程依赖特性对弱监督定位有何影响?作者通过可视化分析CAM方法、纯transformer网络的长程特征依赖关系 , 发现transformer网络中的长程依赖有利于克服局部聚焦缺陷 , 却容易受到背景干扰 。
下图1展示了不同方法的可视化定位结果 , 可以看出CAM方法存在明显局部聚焦的问题;Transformer的长程依赖容易产生背景误定位的现象;融合Transformer长程依赖和CAM(参照TS-CAM论文方法)的方法虽然一定程度上缓解了局部聚焦和背景干扰的问题 , 但是问题依旧存在 。
文章图片
图1:不同方法的可视化结果比对
基于此 , 来自之江实验室和浙江大学的研究者提出一种再注意机制 , 即TRT(tokenrefinementtransformer) , 旨在更有效地捕捉目标级别的语义信息 , 抑制背景干扰 , 实现更准确的目标定位能力 。
文章图片
论文链接:https://arxiv.org/pdf/2208.01838.pdf
Github链接:https://github.com/su-hui-zz/ReAttentionTransformer
方法介绍
文章图片
图2:核心方法框架图
上图2展示了TRT方法的整体框架图 , TRT由TPSM(TokenPriorityScoringModule)和CAM(ClassActivationMap)两个分支构成 。 其中TPSM分支主要由TokenPreliminaryAttention、TokenSelection和TokenRe-Attention三部分组成 。 TokenPreliminaryAttention表示利用transformer网络不同层的classtoken和patchtoken之间的长程依赖关系构建初步注意力图;TokenSelection指构建自适应阈值策略 , 筛选出初步注意力图中与classtoken关联性更高的patchtoken;TokenRe-Attention指对筛选的patchtoken执行再注意操作 。
训练阶段 , 针对CAM分支和TPSM分支输出的分类概率
文章图片
和
文章图片
, 与类别标签构建交叉熵损失函数 , 实现分类训练 , 如下公式(2)所示 。
文章图片
测试阶段 , 将CAM分支输出的特征
文章图片
与TPSM分支输出的特征
文章图片
点乘 , 生成最终的注意力图M 。
文章图片
token优先级评分模块
token初步注意力
第l个transformer层的自注意矩阵公式如下式(4)所示 , 其中
文章图片
- 本文转自:新华网“双碳”目标背景下|低碳时代的炼钢工艺:电弧炉短流程炼钢
- 十四五|有效促进电网供需平衡 虚拟电厂能力不“虚”
- 算法|三星也扛不住了?大幅下调手机出货目标,只有iPhone在畅销!
- 本文转自:科技日报科技日报记者 吴纯新8月18日|目标千亿级!华中首个脑科学产业基地揭牌
- 三星|手机销量重回7年前 “一哥”三星也摊牌了:下调全年出货目标
- 本文转自:中国电子报今年夏天的“热”|“双碳”目标下,电器行业应该如何加快绿色低碳转型
- 从高通偷走芯片专利|从高通偷走芯片专利,转头卖回去赚了10个小目标
- 马斯克的新目标?在推特发文称要收购曼联
- Java|Java:雇佣Java程序员来实现你的软件和应用目标!
- 怎么利用短视频实现精准获客、有效截流——拓客引擎系列1