这些论文聚焦于视觉生成式 AI 的扩散模型、基于物理的模拟和日益逼真的 AI 驱动渲染。其中包括两篇荣获技术最佳论文奖的论文,以及与美国、加拿大、中国、以色列和日本的多所大学和包括 Adobe、Roblox 等公司研究人员的合作。这些研究将有助于创建开发者和企业可用来生成复杂虚拟物体、角色和环境的工具。合成资料生成可以用来讲述强大的视觉故事,协助科学家理解自然现象,或辅助机器人和自动驾驶车辆进行模拟训练。

扩散模型是一种将文字提示转换为图像的热门工具,可以帮助艺术家、设计师和其他创作者快速生成分镜图或制作所需的视觉效果,从而减少将想法变为现实所需的时间。NVIDIA 撰写的两篇论文正在提升这些生成式 AI 模型的能力。

ConsiStory是 NVIDIA 和特拉维夫大学(Tel Aviv University)研究人员的合作成果,使生成具有一致主角的多张图片变得更容易,这对于漫画插图或分镜图等讲述故事的应用至关重要。研究人员的方法引入了一种名为主题驱动共享注意力(subject-driven shared attention)的技术,将生成一致图像所需要的时间从13分钟缩短到约30秒。

NVIDIA 研究人员去年在 SIGGRAPH 的 Real-Time Live! 活动中,凭借将文字或图像提示转换为客制化纹理素材的 AI 模型赢得了最佳展示奖。今年,他们将提出一篇论文,该论文将 2D 生成式扩散模型应用于 3D 网格上的互动纹理绘制,使艺术家能够基于任何参考图像即时绘制复杂的纹理。

图形学研究人员正透过基于物理的模拟技术缩小实物与其虚拟形式之间的差距,这是一系列使数位物体和角色能够像在现实世界中一样移动的技术。多篇 NVIDIA Research的论文都介绍了在该领域的突破,其中包括 SuperPADL,该计划旨在解决基于文字提示模拟复杂人类动作的挑战。

研究人员结合强化学习和监督学习,示范如何训练 SuperPADL 框架来重现 5,000 多种技能的动作,并且可以在消费级的 NVIDIA GPU 上即时运行。

另一篇 NVIDIA 论文展示了一种神经物理方法,该方法应用 AI 来学习物体在环境中移动时的行为,这包括无论是 3D 网格、NeRF 还是由文本生成的 3D 模型所表示的实体物体。

与卡内基美隆大学(Carnegie Mellon University)研究人员合作撰写的一篇论文开发了一种新型渲染器,这种渲染器能进行热分析、静电学和流体力学,而不是模拟物理光。该论文被评为 SIGGRAPH 的五篇最佳论文之一,易于平行化,且不需要繁琐的模型清理,为加速工程设计周期提供了新机会。

NVIDIA 撰写的另一组论文介绍了新技术,这些技术可将可见光建模速度提高 25 倍,并将模拟绕射效果的速度提高 1,000 倍,如用于训练自动驾驶汽车的雷达模拟中使用的绕射效果。

NVIDIA 和滑铁卢大学(University of Waterloo)研究人员发表的一篇论文探讨了自由空间绕射,这是一种光在物体边缘扩散或弯曲的光学现象。该团队的方法可以与路径追踪工作流程整合,以提高复杂场景中模拟绕射的效率,最高可加速达 1,000 倍。除了渲染可见光之外,该模型还可用于模拟雷达、声波或无线电波的较长波长。

路径追踪(Path tracing)透过取样多条路径,也就是穿过场景的多次反射光线,以创建逼真的图片。两篇 SIGGRAPH 论文改善了 ReSTIR 的采样品质,ReSTIR 是 NVIDIA 和达特茅斯学院(Dartmouth College)研究人员在 SIGGRAPH 2020 上首次推出的路径追踪演算法,是将路径追踪引入游戏和其他即时渲染产品的关键。

其中一篇与犹他大学(University of Utah)合作的论文分享了一种重复利用计算路径的新方法,该方法可将有效样本数量增加多达 25 倍,从而显著提高图像品质。另一种方法是透过随机转变光线路径的子集来提高样本品质。这有助于去噪演算法更好地执行,从而在最终渲染中产生更少的视觉假影。

NVIDIA 研究人员也在 SIGGRAPH 上展示了用于 3D 表现和设计的多用途AI 工具。

其中一篇论文介绍了fVDB,这是一个针对 3D 深度学习的GPU 最佳化框架,能够达到现实世界相同的规模。 fVDB框架为城市规模3D模型和NeRF 的大空间规模和高解析度,以及大规模点云的分割和重建提供了AI基础设施。与达特茅斯学院研究人员合作撰写的最佳技术论文奖得主介绍了一种表示 3D 物体如何与光互动的理论。该理论将多种外观统一到一个模型中。

与东京大学(University of Tokyo)、多伦多大学(University of Toronto)和 Adob​​e Research 合作推出了一种演算法,可以在 3D 网格上即时产生平滑的空间填充曲线。以前的方法需要几个小时,而该框架只需几秒钟即可运行,并让使用者能高度控制产出成果,以实现互动式设计。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
投资人关注俄乌战争局势 美国股市近乎平盘开出