智能化视频开发神器来了，AV Pipeline Kit 架构解析电商主播|日常工作|劳动关系

作者 | 宋慧
出品 | CSDN
在中国，93.4%的上网者都是网络视频、短视频的受众。随着宽带提速，5G 普及，用户对网络视频播放速度和清晰度需求水涨船高。AI 技术让音视频有了更多玩法，例如用户对视频的美化与互动，商家借助智能化视频推广，另外，AI 技术也被用在视频领域修复电影资料等。不过从技术层面来看，AI 视频开发和应用的新场景，让视频开发者面临着新的智能化视频技术挑战。
具体来说，与以往的视频开发链路有所不同，在智能音视频开发链路里，包含了例如人脸识别、图像分割等 AI 相关的新技术；通过 AI、CV 逐帧处理视频，比普通视频处理所需资源开销更大，对移动端性能要求也更高；而资源需求也会引起移动端硬件功耗增加，手机发热，更损伤用户的使用体验。面对新的视频应用趋势，开发者需要熟练地运用 AI 新技术、优化资源和性能的更多矛盾、硬件功耗，每一件都是一个专业视频开发者要耗费大量时间和精力才能搞定的难点。
业界目前将 AI 用于视频处理，大多是从服务器侧实现。随着移动设备不断刷新硬件高配置，以及网络条件的改善，端侧的智能化视频其实蕴藏了更多的潜力有待挖掘。
针对智能化视频开发的这些痛点，华为在2021 年 7 月推出了面向移动端开发者的多媒体开放能力体系——多媒体管线服务AV Pipeline Kit（以下简称为AV Pipeline）。近日，CSDN专访了 AV Pipeline 开发团队的多位技术研发负责人，深度揭秘和解析了 AV Pipeline 的架构设计，以及最核心的两项特性：视频超分与声音事件检测的核心技术。
轻量级开发框架，“拼乐高”式的插件化
音视频开发
据介绍，AV Pipeline 里包含轻量级多媒体开发框架和多种高性能的音视频处理插件。多媒体开发框架负责解析配置文件并将多个插件按照配置文件中的编排关系连接组成一个流水线，实现特定的媒体业务，如播放、录制、编辑等。音视频处理插件负责完成特定的任务，例如解封装、解码、滤波等。
AV Pipeline 框架旨在降低媒体应用的开发难度，让开发者们可以通过 AV Pipeline 自定义流水线编排，将原本需要几千行代码才能实现的 AI 视频功能，只通过几十行代码，将多种高性能插件快速集成到应用中，轻松实现更加丰富的多媒体功能。
详细来说，通过定义插件的标准接口和数据流在插件之间的流转方式，开发者只需要按照标准接口完成插件开发，就可以迅速构建出新型的媒体场景。视频开发者如果需要在（端侧）视频采集、播放、编辑等场景中加入 AI 和计算机视觉、音频等算法，采用 AV Pipeline 框架即可。
AV Pipeline 已预置可应用在播放场景的 Pipeline，如视频播放、视频超分、声音事件检测，提供 Java 接口，同时支持开发者通过 C++接口直接调用单个预置插件。开发者可以如乐高积木式搭建，将不同 Pipeline 插件按不同的连接关系串联起来形成新的业务场景。另外，若预置插件或预置Pipeline 不满足使用要求，开发者可以开发自定义插件与 Pipeline。
AV Pipeline 已支持的多种插件
揭秘视频超分与声音事件检测，以深度学习实现“升体验、降成本”
端侧最高 3 倍超分背后，采用深度学习与 NPU 方案
手机和移动设备可以随时随处播放视频，不过网络质量会因为地点条件各有不同。为了降低网络差异对观众观看体验的影响，视频 App 一般会针对网络调整降低视频码率，减少播放卡顿。另外，用户对画质要求水涨船高，视频App 需在服务器端存储高清视频，大大增加了视频网站服务器端的成本开支。
这种情况下，AV Pipeline 用端侧超分技术，提升画质和观看体验，同时降低运营成本，堪称一举两得。而这背后，是AV Pipeline 采用 AI 深度学习对超分功能进行了设计和应用。