有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT( 二 )


的第一行为classtoken的注意力向量 , 展示了classtoken和所有patchtoken之间的关联关系 。 将所有层transformer层classtoken的注意力向量进行均值融合 , 得到初步注意力结果m 。
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
token挑选策略
利用累积分布采样方法构建自适应阈值 , 具体操作为:对初步注意力结果m进行排序并构建积分图 , 针对积分图结果确定固定阈值 , 则针对m生成了自适应阈值 。
操作原理如下式(5)所示 , 其中F为m的累积分布函数 , 严格单调转换
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
为其逆函数 。
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
基于阈值生成二值图
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
, b中值为1的位置表示被筛选的patchtoken的位置 。
token再注意
利用二值图b构建挑选矩阵B , 并基于矩阵B构建掩码自注意力操作 。 对图2中visualtransformerblocks输出的特征
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
中patchtoken部分
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
执行掩码自注意力操作 , 对操作结果进行全连接和掩码softmax操作 , 生成重要性权重λ 。
在训练阶段 , 利用重要性权重λ对
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
进行加权融合 , 将
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
与融合结果送入最后一个transformer层 。 利用最后一个transformer层输出的classtoken生成分类概率
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片

在测试阶段 , 从初步注意力结果m中获取未被筛选的patchtoken权重信息 , 从重要性权重λ中获取被筛选的patchtoken权重信息 , 由此生成
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
, 如式(10)所示 , m'为
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
的向量形式 。
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
结果
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
表1:在CUB-200-2011数据集上的定位准确率比较
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
表2:在CUB-200-2011数据集上的MaxBoxAccV2结果比较
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
表3:在ILSVRC数据集上的定位准确率比较
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
图3:ILSVRC上目标显著性区域以及定位对比
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT
文章图片
有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT】图4:在CUB-200-2011数据集上的目标显著性区域以及定位结果