未来的人机交互如何落地?NVIDIA 研究团队给出了答案( 二 )


文章图片
Riva从模型到软件再到硬件全堆栈持续优化提供的增益是上一代产品的12倍 , 基于此 , 企业可以进一步提高自己对话式AI系统的准确性以及快速部署能力 。
三、快速部署+优质效果 , 下载量已超25万次
作为企业满足对话式AI服务的有力武器 , Riva在帮助企业提高部署效率和服务效果中拥有以下几大优势:
1、预训练模型:十亿文本+六万小时语音数据
对话式AI往往需要高度精确、准确的训练文本 , 帮助AI理解文字和语音的意思 。
Riva提供的预训练模型 , 经过十亿多页的文本、六万小时的语音数据训练 , 并且还接受了不同的语言、口音、专业术语和环境上数百万个小时的GPU训练 , 这保证了其预训练模型的准确性 。
2、实时交互:100毫秒内轻松响应
在对话中 , 想要更加自然真实 , 低延时、实时交互是其中的关键 。 Riva借助GPU加速 , 使得端到端语音流程运行时间可达到100毫秒内 , 也就是包括听、理解和生成响应在内的全流程速度 , 而正常人眨眼时间为0.2~0.4秒左右 。
未来的人机交互如何落地?NVIDIA 研究团队给出了答案
文章图片
此外 , Riva还借助了适用于低延迟和高吞吐量通信的gRPC的微服务器 , 能够进一步减少识别时间 。
3、拿来即用:几行代码就可成功部署
开发者在部署Riva时可使用NVIDIATAO工具包 , 对不同行业、任务、系统的模型训练、适配和优化 , 并且还能使用自己的数据对模型进行微调 , 使其在实际场景中提供实时语音服务时能达到更稳定的效果 。
未来的人机交互如何落地?NVIDIA 研究团队给出了答案
文章图片
值得一提的是 , 在部署Riva时 , 开发者不需要深度AI专业知识 , 只需要几行代码就可以成功部署模型 。 与此同时 , Riva还整合了ASR、TTS、NLP(自然语言处理)三个智能算法引擎 , 使得企业的对话式AI服务能在技术底层上实现统一 。
4、定制服务:不同专业+个性声音均可实现
不同于我们日常交流中常用的词语、句子 , 专业性较强的对话式AI就需要特定训练 , 才能与相关专业进行适配 。 Riva自动语音识别管道就针对不同行业、领域的数据进行了训练 , 帮助企业进行个性化定制 , 并快速复用到实际应用场景中 。
为了提高对话式AI服务的表现力 , 2021年9月 , Riva还推出了定制语音功能 , 可以帮助企业在一天之内打造类似真人的定制语音 , 该功能支持微调口音、音高、声音细粒度等 , Riva2.0也已于2022年3月已上线 。
未来的人机交互如何落地?NVIDIA 研究团队给出了答案
文章图片
Riva从2020年5月发布以来 , 截至2021年9月 , 已实现25万次以上的下载量 , 并广泛应用于视频会议、聊天机器人等场景 。 现在点击文末“阅读原文”就可以试用Riva的互动式Demo 。
四、结语:掀起企业对话式AI应用落地潮
人工智能技术发展正在改变很多行业 , 对话式AI正在一些场景下取代人工客服 , 并且随着语音识别、语义理解等技术的发展 , 语音AI已经从“傻瓜式”、“机器人式”变得更加智能化 , 未来 , 更自然的人机对话可能会很快实现 。
作为NVIDIA研究团队的重要成果之一 , Riva帮助企业构建可定制的对话式AI应用程序 , 将掀起对话式AI应用落地的浪潮 。 不仅如此 , NVIDIA的研究团队也在不断探索AI等前沿科技的新应用场景 , 在加快前沿技术落地的同时 , 为更多场景应用提供底层技术支持 。
未来的人机交互如何落地?NVIDIA 研究团队给出了答案】之后 , 我们还将陆续介绍NVIDIA研究团队推出的计算机视觉、深度学习模型以及有意思的交互式Demo , 如NVIDIAAudio2Face:仅需一个音频来源即可快速生成表情丰富的面部动画;NVIDIACanvas:使用AI将简单的笔触变成逼真的风景图等 。 体验更多人工智能和深度学习互动Demo , 请复制https://t.cn/A6aDExGB到浏览器打开“NVIDIAAI广场” 。