未来的人机交互如何落地？NVIDIA 研究团队给出了答案作者|程茜编辑|漠影对话式人工

文章图片
作者|程茜
编辑|漠影
对话式人工智能（AI）这个词听起来可能有些陌生，但它其实已经渗透到了我们生活的方方面面。语音助手、智能客服、聊天机器人等都是它的应用载体，涵盖金融、交通、通信、购物等多个领域。
随着技术发展和人们生活习惯的变化，对话式AI也在不断改变着众多行业，随之而来，企业对于对话式AI部署的需求激增。然而，对话式AI服务在开发、部署过程中，企业往往会面临很多难题。
如何拥有数据庞大且高度精确的训练模型？如何快速部署复用？如何保障用户的数据隐私和安全？都是横亘在企业落地对话式AI服务面前的大山。
因此，对话式AI这一浪潮正在席卷各行各业的背景下， NVIDIA研究团队通过研发、实践，不断寻找助力企业落地对话式AI服务的新解法。
一、对话式AI正在拓宽人机交互的边界
NVIDIA创始人兼首席执行官黄仁勋曾说：“对话式AI是终极AI 。 ”可以看到，对话式AI的出现与普及正在彻底改变越来越多的行业，如金融、电信等以对话为主要形式的通信即服务行业（UCaaS）。再加上新冠疫情暴发以来，灵活多变的混合办公模式兴起，线上场景下的对话需求越来越多，使得对话式AI的重要性逐渐凸显，但在人机交互的部署和实际效果上，企业仍面临许多难题。

文章图片
首先，企业想要对话式AI的效果能够更加自然，就需要高度精确、经过预训练的模型和迁移学习，并且， “实时性”也是用户体验自然的一个关键因素，大多数人会在100~120毫秒左右感知到明显的通信滞后，因此实时交互需要精确到100毫秒以内。
其次，对于需要广泛部署对话式AI服务的企业来说，它们需要混合使用云、内部部署和边缘部署，并且将系统支持扩展到数十万并发用户中，这对于企业而言仍是一大难题。举例而言，平安科技原有的传统模式是单个服务器部署模型，但在实际场景下，每个智能客服的通话数量会发生变化，无法与业务需求量同步并进行资源调配，就使得部分业务空闲导致GPU资源浪费。
最后，备受用户的数据隐私和安全问题也是对话式AI开发的难点之一，例如在本地或可信任的云中进行安全数据处理。
即便有这些难题，但对话式AI正在席卷各行各业的浪潮不可阻挡。
二、端到端模型工具， GPU加速运行
应用而生的NVIDIA对话式AI架构Riva ，在解决上述难题时，就能为开发者提供经过预先训练的先进深度学习模型和软件工具，快速、高效地将算法模型应用到更多业务场景中，帮助企业创建面向不同行业的对话式AI服务。
Riva采用了语音的端到端工作流，与传统语音识别系统不同，其只分为输入端的语音特征和输出端文本信息。
在语音和文字转化方面， Riva包含自动语音识别（AutomaticSpeechRecognition ， ASR）和文字转语音（TexttoSpeech ， TTS）。
首先， Riva提供的自动语音识别软件工具，可以针对不同领域或部署平台进行定制。
其次， Riva拥有使用频谱图生成和声码器模型的类人文本转语音神经语音，并且其管道可以进行定制和优化，在GPU上实时高效运行。利用文字转语音工具，用户将原始文本输入，在流模式下生成音频块后立即返回，也可以在批处理模式下在整个序列结束时返回。