自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法( 二 )
Target分支负责给出目标 。 它的编码器是Online分支编码器的滑动平均 , 并且接收第二张视图的所有图块并编码为目标特征z_b∈R^(N×D) 。
文章图片
最后介绍解码器所需的位置编码是如何计算的 。 所有的图块都是以第一张视图x_a的左上角作为原点来计算的 。 具体来说 , 假设两张视图在原图中的位置信息分别为(i_1,j_1,h_1,w_1)和(i_2,j_2,h_2,w_2)(分别代表左上角横纵坐标与高度宽度) , 第一张视图的相对位置为:
文章图片
第二张视图的相对位置为:
文章图片
对于第二张图 , 尺度变化也被进一步加入位置信息中:
文章图片
【自监督学习兼顾语义对齐与空间分辨能力?清华、商汤提出SIM方法】最后 , 这些信息输入到sincos位置编码函数中得到如下位置编码:
文章图片
损失函数
SIM采用UniGrad作为损失函数:
文章图片
UniGrad被采用主要出于两个原因:(1)这种对比函数是ID方法的统一形式;(2)它对内存更加友好:注意到通常使用的InfoNCE损失函数需要O(|N|)的内存来计算相似度 , 这对于有大量负样本的密集层次损失函数是不现实的;而通过先计算负样本之间的相关矩阵 , UniGrad只需要O(D^2)的内存消耗 。
SIM尝试将UniGrad施加在全局层次和密集层次 , 全局损失函数用全局平均的特征作为整张图的特征:
文章图片
而密集损失函数将每个图块作为单独的样本 , 并且为了减少与全局损失函数的冲突 , 每个图块的特征减去了全局平均特征:
文章图片
最后的总体的损失函数为:
文章图片
研究者发现在短轮数下 , (α_1=1,α_2=4)给出最好的性能取舍 。 有趣的是 , 当训练轮数足够长时 , 只使用密集损失函数(α_1=0,α_2=1)也能给出很好的线性分类性能 。
实验
主要结果
研究者在多种评估指标下对比了SIM和其它方法的性能 , 包括线性分类、ImageNet全数据微调、ImageNet1%数据微调、COCO上的物体检测与实例分割 。
线性分类方面 , SIM可以做到和MoCo-v3相当的水平 , 同时大幅超过MAE(400ep大约11个点 , 1600ep大约8个点);同时 , 即便不使用全局损失函数 , SIM也能给出不错的线性分类结果;
检测与分割任务上 , SIM超过了MoCo-v3大约2个点 , 也能在使用更短轮数的条件下达到与MAE相当的水平(400epv.s.1600ep);
微调任务上 , SIM在全数据微调时可以达到和之前方法相当的水平 , 而当只有1%数据可用时 , SIM能够超过MoCo-v32个点 , MAE14个点 。
消融实验
预测像素还是特征 。 表中(ab)和(de)说明 , 在使用相同视图作为输入和目标时 , 预测像素性能更好;而使用不同视图时 , 预测特征性能更好;
不同视图 。 表中(ae)和(cf)说明 , 使用不同视图能够提升线性分类大概7-13个点;
颜色增强 。 表中(ac)和(ef)说明 , 对于不同视图 , 颜色增强可以提升线性分类3.5个点 , 不过对于相同视图则没有这种提升效果 。 研究者猜测相同视图会将预测目标所采用的颜色增强泄露给模型 , 从而破坏了对颜色不变性的建模;
- 本文转自:中工网工人日报-中工网记者 吴铎思 通讯员 邱澎波 距中吉边境不到50公里的新...|建设工地变成一台巨大的“3D打印机”
- 短视频|那一夜,我疯了,消灭了自我,成就了更好的自己
- 本文转自:南宁晚报自微软2012年推出Surface产品线以来|618来啦!2022数码潮物好价推荐,13.3英寸大屏二合一笔记本了解一下
- 本文转自:中工网孙滔:致力5G标准研究 在青春的赛道绽放梦想 来源:央视新闻客户端“奋斗...|孙滔:致力5G标准研究 在青春的赛道绽放梦想
- 本文转自:天目新闻科研创新|浙江高考作文题中提到的之江实验室 网友们怎么看它背后的创新力量?
- javascript|自媒体人一般都去哪里找素材创作?
- 自媒体|Java:Java在现实世界中的7大用途
- 本文转自:中国经济网AIoT是大势所趋;“算法定义硬件”是核心理念;开放生态是必由之路当...|被众多大厂看好的AIoT”,发展机遇有多大?
- 苹果|步入“比好”阶段,龙芯中科如何落子自主软件生态棋局?
- 本文转自:中国蓝新闻6月6日|政企携手 互利共赢 苍南成功签约平行进口车总部项目