Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention

简介

最近在稀疏体素表示方面的进展显著提升了三维内容生成的质量，实现了具有精细几何细节的高分辨率建模。然而，现有的框架由于在其两阶段扩散流程中注意力机制具有平方级的复杂度，导致计算效率严重不足。本文中，我们提出了Ultra3D，这是一种高效的三维生成框架，在不牺牲质量的前提下显著加速了稀疏体素建模过程。我们的方法利用紧凑的VecSet表示，在第一阶段高效生成粗略的物体布局，从而减少token数量并加速体素坐标预测。为了在第二阶段细化每个体素的潜在特征，我们引入了“部件注意力”（Part Attention），这是一种感知几何结构的局部注意力机制，将注意力计算限制在语义一致的部件区域内。该设计在保持结构连续性的同时避免了不必要的全局注意力，在潜在特征生成阶段实现了最高达6.7倍的加速。为支持这一机制，我们构建了一个可扩展的部件标注流程，将原始网格转换为带有部件标签的稀疏体素。大量实验表明，Ultra3D支持1024分辨率的高分辨率三维生成，并在视觉保真度和用户偏好方面均达到了最先进的性能。
图表
解决问题

现有的稀疏体素表示方法在3D内容生成中虽然能实现高分辨率建模，但其两阶段扩散流程中的注意力机制存在计算效率低下的问题，尤其是注意力机制的二次复杂度导致了严重的计算瓶颈。论文试图解决这一计算效率问题。
关键思路

Ultra3D提出了一种高效的3D生成框架，通过紧凑的VecSet表示在第一阶段快速生成粗略布局，减少token数量；在第二阶段引入几何感知的局部注意力机制Part Attention，仅在语义一致的部分区域内计算注意力，从而显著提升生成速度而不损失质量。
其它亮点

1. 提出了VecSet表示方法，有效减少token数量并加速体素坐标预测。 2. 引入Part Attention机制，在保持结构连续性的同时避免全局注意力计算，实现最高6.7倍的生成速度提升。 3. 构建了可扩展的部件标注流程，支持Part Attention机制的实现。 4. 支持1024分辨率的高质量3D生成，并在视觉保真度和用户偏好方面达到SOTA。 5. 实验设计全面，验证了方法在多个指标上的优越性。
相关研究

1. Efficient Geometry-aware 3D Scene Synthesis 2. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 3. SparseVoxelNet: Deep Learning on Point Clouds with Sparse Voxel Networks 4. Diffusion Models for 3D Shape Generation: A Survey 5. PartNet: A Recursive Part Decomposition Network for Fine-grained and Hierarchical Shape Understanding

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论