这次,黄仁勋厨房真是假的!英伟达40000帧渲染奇幻厨房( 三 )
文章图片
而Maxine为虚拟会议和视频内容创作应用提供了最先进的语音转录和音频生成工具 。
在演示中 , 一个女人在嘈杂的咖啡馆里通过视频通话说着英语 , 但是背景噪音却一点也听不见 。
文章图片
更妙的是 , 当她说话时 , 她的语音会被实时转录并翻译成法语、德语、西班牙语和中文 , 声音和语调都还是她本人的 。
这些神奇的功能都要依赖OmniverseAvatar的助力 。
她的化身背后 , 是英伟达的Video2Face、Audio2Face、2D和3DAI驱动的面部动画和渲染技术 。
就在4月份的GTC大会 , 黄仁勋曾以14秒的假身现身演讲 。
视频中 , 随着镜头逐渐拉远 , 老黄也开始被「分解」 , 一波特效完成之后 , 老黄也消失了 。
文章图片
老黄假身进行的数据采样也是通过这几项技术实现 。
虚拟人的面部动作只需要导入纯音频后 , Audio2Face能根据语音内容自动生成 。
文章图片
还有 , Face-Vid2Vid可以让模型看起来更真实 。 只需一张照片 , 对应覆盖在CG模型上就可以了得到一个「栩栩如生」的脸了 。
文章图片
OmniverseAvatar的语音识别基于英伟达Riva , 这是一个软件开发工具包 , 可以识别多种语言的语音 。 Riva还可以利用文本到语音生成功能生成类似人类的语音 。
文章图片
OmniverseAvatar的自然语言理解能力是基于Megatron530B大型语言模型 , 可以识别、理解和生成人类语言 。
Megatron530B预训练模型在各种自然语言任务如:完形填空、阅读理解、常识推理、自然语言推理、词义消歧中纷纷实现SOTA 。
除了可以回答问题、总结长而复杂的故事 , Megatron还可以在没有经过专门训练的领域处理相应的问题 。
文章图片
OmniverseAvatar的推荐引擎由NVIDIAMerlin提供 , 该框架允许企业建立能够处理大量数据的深度学习推荐系统 , 以提出更智能的建议 。
Avatar的感知能力则是由NVIDIAMetropolis提供 , 这是一个用于视频分析的计算机视觉框架 。
文章图片
所有这些技术都被整合到一个应用程序中 , 并使用英伟达统一计算框架进行实时处理 。
这些技能可以被打包为可扩展、可定制的微服务 , 并由NVIDIAFleetCommand进行安全地部署、管理和编排 。
利用这些工具 , 英伟达正在谱写一个可以影响数万亿美元的市场的故事 , 而所有的这些都建立在Omniverse之上 。
参考资料:返回搜狐 , 查看更多
责任编辑:
- 技嘉|满血复活DDR4老平台升级,这次选择了技嘉B760M D4小雕AX
- 华为mate|横屏对比五款小折叠旗舰屏幕,这次只有三星OPPO稳赢?
- AMD|Intel发布60核至强处理器 26位业界大腕齐捧场:黄仁勋都来了
- 现在的输入法市场是越来越繁荣了|微信输入法第二次内测,这次可以保护隐私了
- 神舟|4999?神舟这次性价比OK的:13代i5+RTX 3050
- 厨房燃气灶台面,买“不锈钢”还是“玻璃”?过来人教你3点
- 5G|麒麟9000新U+5G,Mate40系列再上新机,这次你买吗?
- 一加科技|一加11首批用户评价正式出炉:暂无差评!网友:这次不低人一等了
- 苹果正在加码大陆“果链”,华为栽树苹果乘凉,这次迎来新对手!
- 苹果|苹果正在加码大陆“果链”,华为栽树苹果乘凉,这次迎来新对手!