场景|RTE2021,实时互动技术的进化与蝶变( 二 )


除了万象图谱,赵斌还在演讲中宣布另一个重磅消息:声网 Agora 打造了全球第一个全自动的多场景模拟声学实验室。他表示:它的出现代表着 RTE 行业在多场景的实时互动下第一个专业的测试设施和测试环境的建设已经成功投产,将为未来多场景下的音频和音效的研究、测试、评估带来新的高度和便利。
下一代实时互联网,路向何方?
声网 Agora 首席科学家钟声博士分享了《实时互动与智能互联网》的主题演讲:
随着线上线下的加速融合,在当下无论是视频通话、在线课堂、VR/AR、直播秀场都已经成为我们习以为常的生活体验。实时互动技术,毫无疑问它的出现极大地强化了人们在线上世界中的社交体验,同时也提升了线上应用场景中的用户粘性。
想要在线上世界中重现线下人们“欢聚一堂”的体验,对于通信网络低延时的需求是十分严苛的。针对实时互动中的低延时需求,在面对海量的非结构化数据要被处理、要被理解、要被还原的需求上,做到感知通信计算一体化的技术支持是非常必要的。
声网 Agora 首席科学家钟声博士
在未来的实时互动场景里,从体验上来讲是叙事的延展,从过去单纯的感官体验到沉浸式的互动叙事感受,在未来的实时互动场景中人们将获得更加丰富的体验。在线上世界中,我们需要构建基于自身的虚拟角色去演绎效果,其中虚拟角色与现实中真实存在的“我”,二者之间的联系是需要数字孪生以及人体的数字孪生技术作为纽带的。未来的实时互动中必须要有的是一种强大的交付、表达以及共情的能力,这其中包含了对表情情感的识别,以及环境的感知、触觉的感知以及基于 AI 的 3D 建模,这些技术共同构成了数字孪生。
在谈到影响未来实时互联网发展的关键技术时,钟声介绍到:声网专注在做低延迟+边+云的加速,实时构筑在 PaaS 系统里,API 提供灵活应用业务构建的内容,以及先进的云/边计算,未来这些肯定是非常重要的技术发展方向。通信领域除了带宽、宽口的延时、可靠率、多设备连接继续演进之外,像太赫兹、毫米波、超大规模 MIMO 都是底层的关键技术。同时,为了呈现更加贴近现实的视频图像效果,超高分辨率的视频技术也是不可避免的。
同时,针对AI技术在实时互联网中的应用,钟声也给出了自己的思路:如何能够做到通过一个小数据就能把所有的信息检索出来,恢复出来?这看似不能完成,但实际上可以通过 AI 的算法泛化大数据转化为小数据,以小数据驱动大数据。从发送端提取关键点,在接收端根据关键点重新生成视频。
针对现如今通信与计算融合后,现有的运维、技术架构已经无法应对当今实时互动的业务和体验要求。声网 Agora 首席科学家钟声在演讲中表示,下一代的实时互联网,需要全网协同及网络感知能力,并做好全域带宽实时调度、全域资源实时调度,发展支持灵活的动态分布式计算云原生软件架构,充分利用 AI算法来泛化智能,小数据驱动大数据,并持续提升端/边/芯片等硬件能力,才能满足当今实时互动场景提出的技术、业务和体验要求。
AI、深度学习不断渗透 RTE 的方方面面
除了钟声博士的前瞻性研究,在 RTE2021 大会上我们能看到的另一个重要现象,是 AI、深度学习正在不断渗透到实时音视频的方方面面。音频、视频、网络各领域的算法工程师们都在实践,以 AI 去优化与提升自身领域的性能表现。
谷歌工程师在 RTE2021 大会上分享了最新的低比特率语音编解码器 Lyra,Lyra 以少量数据压缩重构语音,实现 20kpbs 以下的顺畅视频通话。谷歌工程师们对单个最大矩阵进行稀疏化,即门控循环单元(GRU)内的矩阵,而这些块矩阵可以实现为小而密集的矩阵,从而让深度学习训练速度提高了两倍。