尊敬的客户,您好!我们是北京一家专注互联网技术服务公司,可以提供收录效果好,文章排名好的网站进行发文,发得多,各种关键词排名就多,流量越多越稳定,如果您有需要欢迎您前来资讯!可以随意添加图文和视频广告,助您的企业或者项目服务实现推广效果!如需合作欢迎请加微信
由 发布
同步编辑部
清华大学团队提出的全新 3D算法,无需任何3D数据即可生成超高质量的3D内容。
该算法给3D图形领域带来了重大的进步,利用它,你只需要输入文字“一个菠萝”,就能生成一个非常逼真、高清的3D菠萝:
给定一个稍微困难的文本,比如“一只米开朗基罗风格的狗的雕塑在手机上阅读新闻”,的生成也是小菜一碟:
对比一下生成的照片(下图静态图)和基于3D生成的3D(下图动态图),有网友感叹:短短一年时间,高质量生成已经能从2D图像领域拓展到3D领域了!
一只蓝鸟
这一切都来自于清华大学计算机系朱军教授团队最近发表的一篇论文:High- and Text-to-3D with:
在数字创作和虚拟现实领域,从文本到三维模型的技术具有重要的价值和广泛的应用潜力。该技术可以从简单的文本描述生成具体的三维模型,为设计师、游戏开发者和数字艺术家提供强大的工具。
然而,为了从文本生成精准的三维模型,传统方法需要大量标注的三维模型数据集,这些数据集需要包含多种不同类型、风格的三维模型,且每个模型都需要关联相应的文本描述,创建此类数据集需要耗费大量的时间和人力资源,目前尚无现成的大规模数据集可用。
[1] 提出的算法利用预先训练好的 2D 文本到图像的扩散模型,无需 3D 数据即可完成开放域文本到 3D 的合成。然而,所提出的(SDS)[1] 算法的生成结果面临过饱和、过平滑、细节缺失等严重问题。高质量 3D 内容生成仍然是最困难的前沿问题之一。
本文提出了(VSD)算法,从贝叶斯建模和变分推理( )的角度重新表述了文本转3D问题。具体来说,VSD将3D参数建模为概率分布,并优化其渲染的2D图像分布与预训练的2D扩散模型分布之间的距离。可以看出,VSD算法中的3D参数近似于从3D分布中采样的过程,解决了所提出的SDS算法的过饱和、过平滑和缺乏多样性的问题。此外,SDS通常需要较大的监督权重(CFG = 100),而VSD是第一个可以使用正常CFG(= 7.5)的算法。
效果展示
可以从文本生成非常高质量的纹理 3D 网格:
可以从文本生成非常高质量的 3D 神经辐射场 (NeRF),包括复杂的效果。甚至可以生成 360° 场景:
根据相同的文本也可以生成不同的 3D 内容:
传统3D优化算法
给定一个在2D图像上预训练的扩散模型(例如),[1]提出可以在没有任何3D数据帮助的情况下实现开放域文本转3D的生成。具体来说,对于一个3D物体,文本转3D任务的关键是设计一个优化算法,使得3D物体在各个视角投射出来的2D图像都符合预先训练的2D扩散模型,不断优化3D物体。其中,SDS[1](也称为(SJC)[3])是几乎所有零样本开放域文本转3D作品使用的算法。该算法将3D物体视为单点(),通过随机梯度下降对3D物体进行优化,优化目标是最大化预训练扩散模型下渲染出的2D图像的似然值。值得注意的是,这个优化问题的最优解并不等同于从扩散模型中采样。
传统文胜3D优化算法示意图
在实验中,所有基于 SDS/SJC 的方法目前都存在一个严重的问题:生成的物体过于光滑、过饱和,而且多样性不强。例如开源库 [4] 将目前主流的文本转 3D 工作复刻到了与原始论文相当的水平,如下图所示:
3D 作品转载自 [4]
在此之前,基于2D扩散模型的 3D距离投入实用还很远,不过清华大学朱军团队提出的算法在算法层面解决了SDS的上述问题,能够生成非常逼真的3D内容,大大缩小了这一差距。
原则
与以往的方法不同,它不是简单地优化单个3D物体,而是优化3D物体对应的概率分布。一般来说,给定一个有效的文本输入,存在一个概率分布,包含该文本描述下所有可能的3D物体。
给定文本,3D 对象的潜在概率分布
基于三维概率分布,我们可以进一步推导出二维概率分布,具体来说,我们只需要把每一个三维物体通过摄像头渲染成二维,就可以得到一幅二维图像的概率分布。
可以从底层的三维分布中推导出二维图像分布
因此,优化三维分布可以等效转化为优化二维渲染图像概率分布与二维扩散模型定义的概率分布(由KL散度定义)之间的距离,这是一个经典的变分推断( )任务,因此本文将该任务和相应算法称为变分分数蒸馏( ,VSD)。
优化3D分布可以等效地转化为优化2D图像之间的概率分布。
具体来说,VSD的算法流程图如下。其中,3D物体的迭代更新需要用到两个模型:一个是预先训练好的2D扩散模型(例如 - ),另一个是基于预训练模型的LoRA(低秩)。LoRA估计当前3D物体诱导的2D图像分布的得分函数( ),并进一步用于更新3D物体。该算法实际上模拟了梯度流,可以用预先训练的2D扩散模型保证收敛的分布满足最小KL散度。
VSD培训流程图
对比传统的SDS/SJC算法可以发现,VSD只需要将原来的高斯噪声项替换为LoRA项即可。由于LoRA提供了比高斯噪声更精细的更新方向(例如LoRA可以利用文本y、相机视角c、扩散时间t等先验信息),因此在实践中VSD可以得到比SDS更精细的结果。另外,论文作者提出SDS/SJC其实是VSD使用单点分布作为变分分布的特例,而VSD则扩展为LoRA定义的更复杂的概率分布,因此可以得到更好的结果。此外,VSD对监督权重(CFG)更友好,可以使用与2D扩散模型相同的监督权重(例如-常用的CFG=7.5),因此可以达到与2D扩散模型相近的采样质量。该结果首次解决了SDS/SJC中超大CFG(一般为100)的问题,同时也表明基于分布优化的VSD思想更适合预训练的2D扩散模型。
SDS/SJC 与 VSD 更新公式的比较
最后,详细研究了3D表示的设计空间并提出了后续的实现方案。在实践中,VSD可以在512渲染分辨率下在NeRF下进行训练,并大大丰富了所得3D结果的纹理细节。
与其他实施细节工作的比较
关于作者
论文有两位共同第一作者,第一位是清华大学博士二年级生王正义,主要研究方向为深度生成模型理论与算法在三维内容生成的应用,曾在ICML/CVPR/等顶级会议上发表多篇论文。
合著者:王正义
个人主页:
论文另一位共同第一作者是清华大学四年级博士生陆诚,目前的研究方向为深度生成模型的理论与算法及其在计算机视觉、强化学习、3D生成等方面的应用,在ICML/ICLR/等顶级会议上发表过多篇论文。此前他是DPM-(2022 oral)的第一作者,将扩散模型的快速采样算法发挥到了极致,无需额外训练,在10到25步内就能获得极高质量的采样。至今仍是-等论文中原始图像的默认采样算法(详情见机器之心报告[5])。
合著者 陆成
个人主页:
团队成员长期致力于扩散模型的研究。成员包凡作为第一作者发表了一篇名为-DPM的论文,获得了ICLR 2022大奖。他还提出了许多出色的工作,例如多模态大模型(详情见机器之心报告[6])。另一名成员李崇宣也是该组培养的博士生,曾获得CCF优秀博士论文奖,目前是中国人民大学助理教授,他还将在6月份的致远会议上组织一场“生成模型论坛”。
最后,清华大学团队长期致力于贝叶斯机器学习的理论与算法研究,是国际上最早研究深度概率生成模型的团队之一,在贝叶斯模型、高效算法、概率编程库等方面取得了系统深入的研究成果。早在 2017 年,机器之心就报道过该团队发布的“深度概率编程库”(),这是国际上最早的深度概率模型编程库之一。
参考
[1] Ben 等人:文本到 3D 2D。
[2] 等,Text-to-with Deep。
[3] Wang 等人:2D 换 3D。
[4] 郭元晨等,:A 代表 3D。
[5]
[6]
©结束