人工智能|AI赋能影像技术,让修图小白秒变大师

美图影像研究院致力于计算机视觉、机器学习、增强现实等人工智能(AI)相关领域的研发 , 在人脸技术、人体技术、图像分割、图像识别、图像生成、图像增强等方面处于领先水平 , 为美图现有和未来的产品提供核心算法支持 。
◎本报采访人员 马爱平
近日 , 计算机视觉顶级会议CVPR 2022公布了会议录取结果 , 美图影像研究院(MT Lab)与北京航空航天大学可乐实验室联合发表的论文被接收 。 该论文突破性地提出分布感知式单阶段模型(DAS) , 用于解决极具挑战性的多人3D人体姿态估计问题 。 该方法通过一次网络前向推理同时获取3D空间中人体位置信息以及相对应的关键点信息 , 从而简化了预测流程 , 提高了效率 。 此外 , 该方法有效地学习了人体关键点的真实分布 , 进而提升了基于回归框架的多人3D人体姿态估计方法的精度 。
实际上 , 这只是美图利用人工智能为影像技术赋能的冰山一角 。 早在2010年 , 美图就成立了核心研发部门——美图影像研究院 , 该研究院致力于计算机视觉、机器学习、增强现实等人工智能(AI)相关领域的研发 , 在人脸技术、人体技术、图像分割、图像识别、图像生成、图像增强等方面处于领先水平 , 为美图现有和未来的产品提供核心算法支持 , 并通过前沿技术推动美图产品发展 , 曾先后多次参与CVPR、ICCV、ECCV等计算机视觉国际顶级会议 , 并斩获冠亚军10余项 , 被称为美图的“技术中枢” 。
高效精准获取多人3D人体姿态估计结果
计算机视觉中的经典技术——多人3D人体姿态估计在AR/VR、游戏、运动分析、虚拟试衣等领域具有广泛的应用潜力 , 近年来随着元宇宙概念的兴起 , 更是让这一技术备受关注 。
目前 , 通常采用两阶段方法来解决多人3D人体姿态估计的问题:自顶向下方法 , 即先检测图片多个人体的位置 , 之后对检测到的每个人使用单人3D姿态估计模型来分别预测其姿态;自底向上方法 , 即先检测图片中所有人的3D关键点 , 之后通过相关性将这些关键点分配给对应的人体 。
尽管两阶段方法取得了良好的精度 , 但是需要通过冗余的计算和复杂的后处理来顺序性地获取人体位置信息和关键点位置信息 , 其速率通常难以满足实际场景需求 , 因此多人3D姿态估计算法流程亟须简化 。
为了克服两阶段方法存在的问题 , 该论文提出了一种分布感知式单阶段模型用于解决基于单张图片的多人3D人体姿态估计问题 。 另外 , DAS在优化过程中对3D关键点的分布进行学习 , 这为3D关键点的回归提供了极具价值的指导性信息 , 从而有效地提升了预测精度 。
此外 , 为了缓解关键点分布估计的难度 , DAS采用了一种迭代更新策略以逐步逼近真实分布目标 , 通过这样一种方式 , DAS可以高效且精准地从单目RGB图片中一次性获取多个人的3D人体姿态估计结果 。
与已有的两阶段方法相比 , 该模型可以通过一次网络前向推理同时获取人体位置信息以及所对应的人体关键点位置信息 , 从而有效地简化预测流程 , 克服了已有方法在高计算成本和高模型复杂度方面的弊端 。 另外 , 该方法成功将标准化流引进到多人3D人体姿态估计任务中 , 以在训练过程中学习人体关键点分布 , 并提出迭代回归策略缓解分布学习难度 , 来达到逐步逼近目标的目的 。 通过该模型可以获取数据的真实分布 , 有效地提升模型的回归预测精度 。
人工智能技术大大提升摄影修图效率
对人脸皮肤进行精细化的瑕疵修复与暗沉祛除 , 一键入“齿”修复牙齿上的瑕疵 , 照片上模糊的容颜清晰重现 , 全身美型告别大粗腿、水桶腰……AI技术正让修图小白秒变大师 。