比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA 选自arXiv作者：ChenWei等机器之

选自arXiv
作者：ChenWei等
机器之心编译
mask-and-predict的方法可能会成为计算机视觉领域的新流派。
自监督预训练在自然语言处理方面取得了惊人的成功，其基本思路中包含着掩码预测任务。前段时间，何恺明一作的论文《MaskedAutoencodersAreScalableVisionLearners》提出了一种简单实用的自监督学习方案MAE ，将NLP领域的掩码预测（mask-and-predict）方法用在了视觉问题上。现在来自FacebookAI研究院（FAIR）的研究团队又提出了一种自监督视觉预训练新方法MaskFeat 。
论文地址：https://arxiv.org/pdf/2112.09133.pdf
MaskFeat首先随机掩码一部分输入序列，然后预测被掩码区域的特征。通过研究5种不同类型的特征，研究者发现方向梯度直方图(HOG)是一种很好的特征描述方法，在性能和效率方面都表现优异。并且研究者还观察到HOG中的局部对比归一化对于获得良好结果至关重要，这与之前使用HOG进行视觉识别的工作一致。
该方法可以学习丰富的视觉知识并驱动基于Transformer的大规模模型。在不使用额外的模型权重和监督的情况下， MaskFeat在未标记的视频上进行预训练，使用MViT-L在Kinetics-400上实现了前所未有的86.7%top-1准确率。此外， MaskFeat还能进一步推广到图像输入，并在ImageNet上获得了有竞争力的结果。
方法
掩码视觉预测任务旨在修复被掩码的视觉内容。通过建模掩码样本，该模型从识别物体的部位和运动的意义上实现了视频理解。例如，要补全下图中的图像，模型必须首先根据可见区域识别对象，还要知道对象通常的形态和移动方式，以修复缺失区域。

文章图片
该任务的一个关键组成部分是预测目标。在自然语言处理任务中，掩码语言建模使用词表tokenize语料库作为目标。而在视觉领域，原始视觉信号是连续的、高维的，并且没有可用的自然「词表」。
因此， MaskFeat提出将预测被掩码区域的特征。借助从原始完整样本中提取的特征进行监督。目标特征的选择在很大程度上影响了预训练模型的属性，该研究对特征进行了广泛的解释，并主要考虑了5种不同类型的目标特征。

文章图片
首先研究者将目标特征分为两组：1)可以直接获得的单阶段目标，包括像素颜色和HOG；2)由经过训练的深度网络提取的两阶段目标。由于预测两阶段目标是借助训练有素的深度网络有效学得的（类似于模型蒸馏），因此教师模型的预训练和推理的额外计算成本是不可避免的。该研究主要探究的5种特征类型是：
像素颜色；
方向梯度直方图（HOG）；
离散变分自编码器（dVAE）；
深度特征；
伪标签。
该研究通过了一系列的分析探究了这5种特征的利弊。尽管掩码语言建模最初是在预定义词表上预测分类分布，但BEiT中的离散化不需要视觉信息。分析结果表明，连续的无监督特征和图像描述符是性能较好的预测目标，其中前者需要模型蒸馏，后者则不需要额外的计算开销。

文章图片
此外，研究者还发现监督训练的目标特征会产生较差的结果，这可能与存在于特征中的类级特定信息有关，即这种方法对于局部掩码建模来说过于全局化。总的来说，考虑性能和计算成本之间的权衡，该研究最终选择了HOG作为MaskFeat的默认特征。