cto|嬴彻科技CTO杨睿刚博士与你分享CVPR 2021入选论文( 二 ) 算法

关键词：语义迁移，隐式增强
论文链接：https://github.com/BIT-DA/TSA
【 cto|嬴彻科技CTO杨睿刚博士与你分享CVPR 2021入选论文】3、高效推断的动态领域自适应
Dynamic Domain Adaptation for Efficient Inference

文章插图
以往的领域自适应算法大多利用复杂而强大的深层神经网络来提高自适应能力，并取得了显著的成功。然而，它们可能无法适用于实时交互等实际情况，即在有限的计算资源下低延迟是一个基本要求。
为了解决这个问题，本文提出了一种动态领域自适应（DDA）框架，该框架既能在低资源场景下实现高效的目标推理，又能继承领域自适应算法带来的良好跨域泛化特性。与静态模型不同，通过在网络中配置多个中间分类器来动态推断 “更简单” 和“更困难”的目标数据，DDA 可以将各种领域混淆约束集成到任意的经典自适应网络中，简单而通用。
此外，该论文还提出了两种新的策略来进一步提高多个预测出口的自适应性能：1）基于置信度得分的学习策略——充分挖掘不同分类器的预测一致性，以此获得目标域数据的准确伪标签；2）类平衡的自训练策略——在不损失预测多样性的前提下，使多阶分类器从源域显式地适配到目标域上。多个基准上的实验验证了 DDA 算法在域迁移和资源受限的情况下，仍能够持续地提高自适应性能并加速目标推理。
关键词：领域自适应，推理加速
论文链接：https://github.com/BIT-DA/DDA
4、针对长尾图像识别的元语义增广
MetaSAug: Meta Semantic Augmentation for Long-Tailed Visual Recognition

文章插图
现实世界的训练数据通常表现为长尾分布，其中几个多数类的样本数量显著多于其余少数类。这种不平衡的数据分布使得专为平衡数据集设计的监督算法出现性能退化。
为了解决这个问题，本篇论文利用最近提出的隐式语义数据增强 (ISDA) 算法来增强少数类。该算法通过沿着多个有语义意义的方向，变换深度特征来产生多样化的增强样本。但是，ISDA 是利用各类的统计信息而获取的语义方向，其在缺乏训练样本的少数类上会表现欠佳。为此，论文提出了一种基于元学习的自动学习语义变换方向的方法。
具体地，训练过程中的增广策略是动态优化的，目标是最小化小型平衡验证集上的损失，这一过程可用一步元更新近似。在 CIFAR-LT-10/100、ImageNet-LT 和 iNaturalist 2017/2018 上的实验结果证明了此方法的有效性。
关键词：数据不均衡，语义变换
论文链接：https://github.com/BIT-DA/MetaSAug
5、使用对极时空网络的多视图深度估计
Multi-view Depth Estimation using Epipolar Spatio-Temporal Network

文章插图
该论文针对多视角立体视觉（Multi-view Stereo）应用在视频的场景，提出了一种利用时序相关性的新方法。过去的多视角立体几何的方法，通常只能单独估计每一帧图片的深度信息，无法利用视频的时序相关性来提高准确度。该论文提出了一种新颖的极几何时空的 transformer 结构，在对多张连续视频帧进行深度估计时，能够显性得利用连续图像的几何和时序信息，提高了对视频进行深度估计的时序一致性。在多个公开数据集上，该论文的方法都取得了领先的效果。
关键词：极几何时空，多视角立体几何
论文链接：https://www.xxlong.site/ESTDepth/
杨睿刚：CVPR 仍是最强，要时刻保持对前沿技术的敏感性
而对于 CVPR 2021 的大会工作，杨睿刚博士也从程序主席的角度对广大学者们分享了自己的看法：