比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA( 二 )


方向梯度直方图(HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述方法 , 最早是在CVPR2005的一篇论文《HistogramsofOrientedGradientsforHumanDetection》中提出的 。
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
文章图片
HOG特征提取的过程如下:首先把样本图像分割为若干个像素单元 , 把梯度方向平均划分为多个区间 , 在每个单元里面对所有像素的梯度方向在各个方向区间进行直方图统计 , 得到一个多维的特征向量 , 每相邻的单元构成一个区间 , 把一个区间内的特征向量联起来得到多维的特征向量 , 用区间对样本图像进行扫描 , 扫描步长为一个单元 。 最后将所有块的特征串联起来 , 就得到了完整的特征 。
基于视频识别的实验
该研究在K400数据集上将MaskFeat和之前的工作进行了比较 , 结果如下表3所示 , 使用MaskFeat的MViT-L在Kinetics-400上实现了新的SOTA——86.7%top-1准确率 。
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
文章图片
迁移学习
为了评估该方法在下游任务上的迁移学习性能 , 该研究在AVAv2.2上微调了MViT-L312,40×3Kinetics模型 , 实验结果如上表3和下表4所示 , 在K600上实现了88.3%top-1准确率 , K700上为80.4% , 均实现了新的SOTA 。
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
文章图片
该研究在AVAv2.2上微调了MViT-L312,40×3Kinetics模型 , 下表5给出了MaskFeat模型与现有方法相比的平均精度(mAP) 。 MaskFeat在全分辨率测试中达到了前所未有的38.8mAP , 大大超过了以前所有方法 。
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
文章图片
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA】感兴趣的读者可以阅读论文原文了解更多研究细节 。