场景|RTE2021,实时互动技术的进化与蝶变( 三 )


场景|RTE2021,实时互动技术的进化与蝶变
文章插图

声网的 Silver 语音编解码器则是通过深度学习探索码率、算力和效果的平衡。声网的音频算法团队使用 AI-NS 降噪算法提升语音信噪比,解决噪声问题,以减少低码率带来的 artifact;
编码基于传统算法的分频带特征提取(基频、子带频谱包络、能量等),以及 RVQ、距离编码等方法实现特征编码节省码率;解码采用自回归模型和带宽扩展(BWE)的 WaveRNN 模型实现模型算力的精简。基于自研的多平台 AI 推理引擎实现模型的非对称量化、混合精度推理、计算压缩解码耗时,最终保证移动端部署的实时性。
另外,还有 NVIDIA 深度学习资深解决方案架构师在大会上分享了英伟达从提升算力、结构化稀疏减少算力损耗、模型量化寻找最优算力的深度学习“一增两减”思路。声网 Agora SD-RTNTM 网络传输质量工程师分享,探索声网如何将运维操作的 API 化、平台化,将 AI 和 OPS 拆解成算法-决策-执行,以实现 7*24H 无间断、运维执行的质量和效率。
视频标准与专利发展迅速,期待 AV2 的到来
除了 AI 的深入实践,国内厂商在实时音视频领域另一个重要的战场,标准制定上,也在投入大量精力。RTE2021 大会上,参与了高清、4K 等视频国际标准制定的叶琰博士,分享了关于 MPEG、ITU 发展历程,VVC 性能演进详细指标数据,以及视频标准商用落地的最新个人观点。
场景|RTE2021,实时互动技术的进化与蝶变
文章插图

MPEG 发展路径
她很坦率地提出了,已经占据互联网 80% 流量的视频,压缩技术日趋被重视,也将带来专利技术之争,以及专利授权的复杂场景。另外,MPEG 视频相关工作将在 VVC 下一代标准技术研发、AI 视频编码(包含传统框架下提供更高压缩性能、神经网络进行视频压缩两个方向),以及浸入式视频方向发力。
除了视频标准,RTE2021大会上,谷歌工程师也带来了最新的 AV2 编解码器的设计和性能优化成果。上一代 AV1 仅仅在引入实际场景落地的进程中,谷歌的工程师们已经在继续向前,以 0.4~1.5% 的性能提升,探索编解码效率的极限。所以,与 AV2 相关的场景和标准,也将是业界重点关注的工作。
WebRTC 开源与标准之上,声网如何打破“黑盒子”
今年,WebRTC 正式成为 W3C 与 IETF 的官方标准,看起来尘埃落定。不过,WebRTC 开源社区 Committer、声网 Agora WebRTC 负责人毛玉杰在大会上分享了,各组织在 WebRTC Codecs 存在着开源与标准之争的现状问题,以及声网在 WebRTC 标准之上,如何设计 Web 端到端音视频传输架构,降低开发者对实时音视频的使用门槛。
他总结了 WebRTC 的六个现有问题:设备与外设缺乏适配、各类浏览器兼容性、移动端支持不佳、音视频模块不可定制、性能问题、统计数据缺失,目前浏览器厂商并不能全部解决以上问题。声网结合 ORTC、WebRTC Extenions、WebRTC-SVC、Web Transport、Raw-Socket……等多个技术标准,形成了现在声网的 Web 端到端音视频传输架构。
【 场景|RTE2021,实时互动技术的进化与蝶变】场景|RTE2021,实时互动技术的进化与蝶变
文章插图

声网 Web 端到端音视频传输架构
从 AgoraAI 实时 AI 加速引擎的推出,到在千元机上开启各类 AI 玩法;从 WebRTC 的标准化,到在探索在 Web 端达到 native 端同等的能力;从 RTC 与 IM 融合基础上提供的 aPaaS 到 RTE 万象图谱的发布。过去一年是声网Agora 技术进化的一年,也是实时互联网迈向全新技术阶段的重要变革点,RTE 领域的未来值得我们期待!