未来的人机交互如何落地?NVIDIA 研究团队给出了答案

未来的人机交互如何落地?NVIDIA 研究团队给出了答案
文章图片
作者|程茜
编辑|漠影
对话式人工智能(AI)这个词听起来可能有些陌生 , 但它其实已经渗透到了我们生活的方方面面 。 语音助手、智能客服、聊天机器人等都是它的应用载体 , 涵盖金融、交通、通信、购物等多个领域 。
随着技术发展和人们生活习惯的变化 , 对话式AI也在不断改变着众多行业 , 随之而来 , 企业对于对话式AI部署的需求激增 。 然而 , 对话式AI服务在开发、部署过程中 , 企业往往会面临很多难题 。
如何拥有数据庞大且高度精确的训练模型?如何快速部署复用?如何保障用户的数据隐私和安全?都是横亘在企业落地对话式AI服务面前的大山 。
因此 , 对话式AI这一浪潮正在席卷各行各业的背景下 , NVIDIA研究团队通过研发、实践 , 不断寻找助力企业落地对话式AI服务的新解法 。
一、对话式AI正在拓宽人机交互的边界
NVIDIA创始人兼首席执行官黄仁勋曾说:“对话式AI是终极AI 。 ”可以看到 , 对话式AI的出现与普及正在彻底改变越来越多的行业 , 如金融、电信等以对话为主要形式的通信即服务行业(UCaaS) 。 再加上新冠疫情暴发以来 , 灵活多变的混合办公模式兴起 , 线上场景下的对话需求越来越多 , 使得对话式AI的重要性逐渐凸显 , 但在人机交互的部署和实际效果上 , 企业仍面临许多难题 。
未来的人机交互如何落地?NVIDIA 研究团队给出了答案
文章图片
首先 , 企业想要对话式AI的效果能够更加自然 , 就需要高度精确、经过预训练的模型和迁移学习 , 并且 , “实时性”也是用户体验自然的一个关键因素 , 大多数人会在100~120毫秒左右感知到明显的通信滞后 , 因此实时交互需要精确到100毫秒以内 。
其次 , 对于需要广泛部署对话式AI服务的企业来说 , 它们需要混合使用云、内部部署和边缘部署 , 并且将系统支持扩展到数十万并发用户中 , 这对于企业而言仍是一大难题 。 举例而言 , 平安科技原有的传统模式是单个服务器部署模型 , 但在实际场景下 , 每个智能客服的通话数量会发生变化 , 无法与业务需求量同步并进行资源调配 , 就使得部分业务空闲导致GPU资源浪费 。
最后 , 备受用户的数据隐私和安全问题也是对话式AI开发的难点之一 , 例如在本地或可信任的云中进行安全数据处理 。
即便有这些难题 , 但对话式AI正在席卷各行各业的浪潮不可阻挡 。
二、端到端模型工具 , GPU加速运行
应用而生的NVIDIA对话式AI架构Riva , 在解决上述难题时 , 就能为开发者提供经过预先训练的先进深度学习模型和软件工具 , 快速、高效地将算法模型应用到更多业务场景中 , 帮助企业创建面向不同行业的对话式AI服务 。
Riva采用了语音的端到端工作流 , 与传统语音识别系统不同 , 其只分为输入端的语音特征和输出端文本信息 。
在语音和文字转化方面 , Riva包含自动语音识别(AutomaticSpeechRecognition , ASR)和文字转语音(TexttoSpeech , TTS) 。
首先 , Riva提供的自动语音识别软件工具 , 可以针对不同领域或部署平台进行定制 。
其次 , Riva拥有使用频谱图生成和声码器模型的类人文本转语音神经语音 , 并且其管道可以进行定制和优化 , 在GPU上实时高效运行 。 利用文字转语音工具 , 用户将原始文本输入 , 在流模式下生成音频块后立即返回 , 也可以在批处理模式下在整个序列结束时返回 。
未来的人机交互如何落地?NVIDIA 研究团队给出了答案