这次，黄仁勋厨房真是假的！英伟达40000帧渲染奇幻厨房( 三 ) 编辑：桃子小咸鱼【新智元导

文章图片
而Maxine为虚拟会议和视频内容创作应用提供了最先进的语音转录和音频生成工具。
在演示中，一个女人在嘈杂的咖啡馆里通过视频通话说着英语，但是背景噪音却一点也听不见。

文章图片
更妙的是，当她说话时，她的语音会被实时转录并翻译成法语、德语、西班牙语和中文，声音和语调都还是她本人的。
这些神奇的功能都要依赖OmniverseAvatar的助力。
她的化身背后，是英伟达的Video2Face、Audio2Face、2D和3DAI驱动的面部动画和渲染技术。
就在4月份的GTC大会，黄仁勋曾以14秒的假身现身演讲。
视频中，随着镜头逐渐拉远，老黄也开始被「分解」，一波特效完成之后，老黄也消失了。

文章图片
老黄假身进行的数据采样也是通过这几项技术实现。
虚拟人的面部动作只需要导入纯音频后， Audio2Face能根据语音内容自动生成。

文章图片
还有， Face-Vid2Vid可以让模型看起来更真实。只需一张照片，对应覆盖在CG模型上就可以了得到一个「栩栩如生」的脸了。

文章图片
OmniverseAvatar的语音识别基于英伟达Riva ，这是一个软件开发工具包，可以识别多种语言的语音。 Riva还可以利用文本到语音生成功能生成类似人类的语音。

文章图片
OmniverseAvatar的自然语言理解能力是基于Megatron530B大型语言模型，可以识别、理解和生成人类语言。
Megatron530B预训练模型在各种自然语言任务如：完形填空、阅读理解、常识推理、自然语言推理、词义消歧中纷纷实现SOTA 。
除了可以回答问题、总结长而复杂的故事， Megatron还可以在没有经过专门训练的领域处理相应的问题。

文章图片
OmniverseAvatar的推荐引擎由NVIDIAMerlin提供，该框架允许企业建立能够处理大量数据的深度学习推荐系统，以提出更智能的建议。
Avatar的感知能力则是由NVIDIAMetropolis提供，这是一个用于视频分析的计算机视觉框架。

文章图片
所有这些技术都被整合到一个应用程序中，并使用英伟达统一计算框架进行实时处理。
这些技能可以被打包为可扩展、可定制的微服务，并由NVIDIAFleetCommand进行安全地部署、管理和编排。
利用这些工具，英伟达正在谱写一个可以影响数万亿美元的市场的故事，而所有的这些都建立在Omniverse之上。
参考资料：返回搜狐，查看更多
责任编辑：