英伟达推出3D模型智能生成应用Magic3D,数字化建模迈入AI时代( 二 )


英伟达推出3D模型智能生成应用Magic3D,数字化建模迈入AI时代
文章图片
△Magic3D的两阶段优化过程示意图
再来看看DreamFusion团队的技术:先使用一个预训练2D扩散模型基于文本提示生成一张二维图像 , 然后引入一个基于概率密度蒸馏的损失函数 , 通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型 。 训练后的模型可以在任意角度、任意光照条件、任意三维环境中基于给定的文本提示生成模型 , 整个过程既不需要3D训练数据 , 也无需修改图像扩散模型 , 完全依赖预训练扩散模型作为先验 。
英伟达推出3D模型智能生成应用Magic3D,数字化建模迈入AI时代
文章图片
相比较而言 , Magic3D可以根据输入文本提示创建高质量的3D纹理网格模型 。 它采用从粗到精的策略 , 利用低分辨率和高分辨率扩散先验来学习目标内容的3D表示 。 Magic3D以比DreamFusion高8倍的分辨率合成3D模型 , 同时速度也快2倍 。
生成式AI和3D打印:潜力巨大
Physna的创始人兼首席执行官PaulPowers分享了他对生成式AI的看法 , 他表示生成式AI在2022年十分火热 , 因此该公司决定深入研究3D打印和生成式AI的结合 。 虽然Physna是一家3D搜索和分析公司 , 专注于AR/VR和制造领域的工程和设计应用 , 但他的3名工程师仅使用8,000个模型在2周内就为3D模型和场景构建了一个非常基本的生成AI原型 。
●Physna的创始人兼首席执行官PaulPowers解释了为什么要踏入生成式AI领域 , 他表示生成式AI已经席卷了许多行业 , 但在3D打印方面却刚刚起步 。 主要原因是复杂的3D模型和缺乏标记的3D数据 。 3D模型通常很难创建 , 有多种不兼容的格式 , 并且与2D模型分析(文本、图像、视频等)相比很少受到关注 。 很少有企业适合专注于3D , 它的研究难度很高 。
●Google的DreamFusion团队在他们的文章中表示:与2D数据相比 , 3D数据较少 。 Google的DreamFusion团队使用NeRF的方式与Nvidia的Magic3D团队使用的方式相同 。 用户不仅掌握的对象信息更少 , 而且也很难对技术做出假设 。 虽然在NeRFs上训练可能比在2D模型上训练更有帮助 , 谷歌的DreamFusion团队指出 , NeRFs不能很好地替代真实的、带标签的3D模型 。 也就是说 , 如果没有解决方案 , 在不久的将来 , 生成式AI在3D领域的表现将不会像在其他领域那样出色 。 DreamFusion团队进一步进行了一些实验 , 以校验生成人工智能与3D打印的兼容性 。
GPU计算如何改进3D打印?
GPU计算需要使用GPU(图形处理单元)作为协处理器来加速CPU的科学计算 。 通过卸载一些耗时和计算密集型代码 , GPU可以加速基于CPU的应用程序 。 应用程序的其余部分继续在CPU上运行 。 从用户的角度来看 , 应用程序运行速度更快 , 因为它利用GPU的并行处理能力来提高性能 。 这种类型的计算被称为“混合”或“异构”计算 。 CPU通常有四到八个CPU内核 , 而GPU通常有数百个较小的内核 。 GPU的高计算性能得益于其庞大的并行结构 。
应用程序开发人员可以通过采用NVIDIA的“CUDA”并行编程模型利用并行GPU架构的性能 。 所有NVIDIAGPU都支持NVIDIACUDA并行编程模型 , 包括GeForce、Quadro和Tesla 。 此前 , Nvidia推出了一种将2D图像转换为3D模型的方法 。 该框架演示了如何以类似于肉眼工作方式的方式从单个图像推断形状、纹理和光线 。 Nvidia公关专家LaurenFinkle在公司博客上写道:“看这个屏幕时请闭上左眼 。 现在闭上你的右眼并睁开你的左眼 , 你会发现你的视野会随着你使用的是哪只眼睛而变化 。 那是因为当我们看到二维空间时 , 视网膜捕捉到的图像被组合起来提供深度并产生三维感 。 ”