Zero-to-CAD: Agentic Synthesis of Interpretable CAD Programs at Million-Scale Without Real Data

2026年04月27日
  • 简介
    计算机辅助设计(CAD)模型由其建模历史所定义:即一段参数化“配方”,用以编码设计意图。然而,当前主流的大规模3D数据集大多仅包含边界表示(B-Rep)或网格模型,从而完全丢失了这一关键的程序化信息。为应对该类数据的严重匮乏,我们提出“零起点生成CAD”(Zero-to-CAD)——一种可扩展的框架,用于合成可执行的CAD建模操作序列。我们将合成任务建模为一种具身智能体(agentic)搜索问题:将大语言模型(LLM)嵌入至具备反馈机制的CAD运行环境中,系统由此迭代式地生成代码、执行操作并验证结果;同时借助工具调用与文档检索能力,确保所生成几何体的正确性及建模操作类型的多样性。这种具身智能体方法成功合成了约一百万条可执行、可读、可编辑的CAD建模序列,涵盖远超传统“草图绘制—拉伸”流程的丰富操作语义。此外,我们还发布了一个精选子集,包含10万件高质量模型,这些模型经严格筛选,具有高度的几何多样性。为验证该数据集的实际效用,我们基于合成数据对一个视觉-语言模型进行微调,使其能够从多视角图像中重建出可编辑的CAD程序;实验结果显著优于包括GPT-5.2在内的多个强基线方法,并在无需任何真实建模历史数据的前提下,有效实现了CAD序列生成能力的冷启动。Zero-to-CAD弥合了几何规模与参数化可解释性之间的鸿沟,为下一代CAD人工智能提供了至关重要的基础资源。
  • 作者讲解
  • 图表
  • 解决问题
    现有大规模3D数据集(如ShapeNet、ABC、OpenCAD)主要提供静态几何表示(B-Rep或网格),严重缺失CAD模型的核心——可编辑、可追溯、承载设计意图的参数化构造历史(construction history)。这导致AI模型难以学习真正的工程语义、支持下游如逆向建模、编辑推理、协同设计等任务。该问题在AI for CAD领域长期存在,虽有少量构造历史数据(如SketchGraphs、DeepCAD),但规模小(<10k)、覆盖操作单一、不可执行、缺乏几何验证,因此仍是一个亟待系统性解决的新颖且关键问题。
  • 关键思路
    提出Zero-to-CAD框架,将CAD程序合成建模为‘LLM智能体(agent)在闭环CAD仿真环境中的工具增强搜索’:LLM不直接生成代码,而是在实时执行反馈(几何有效性、拓扑错误、操作失败)、文档检索(CAD API语义对齐)和多步试错中迭代优化可执行Python脚本(基于FreeCAD API)。其核心新意在于摒弃监督式序列生成范式,转而构建一个具备‘感知-行动-反思’能力的具身智能体,首次实现百万级、可执行、可读、可编辑、操作多样(含布尔、放样、扫掠、倒角、约束驱动草图等)的合成CAD历史数据。
  • 其它亮点
    • 合成约1M条可执行CAD构造序列(Python+FreeCAD API),全部通过几何验证与运行时测试;• 发布高质量子集Zero-to-CAD-100K(10万样本),经聚类筛选确保形状/操作/约束多样性;• 首次在无真实构造历史训练数据前提下,仅用合成数据微调Vision-Language Model(ViT-LLaMA架构),实现从多视图图像端到端生成可运行CAD代码,在OpenCAD基准上超越GPT-5.2(闭源基线)及DeepCAD、SketchGen等SOTA;• 全流程开源:合成引擎、评估工具链、100K数据集、微调代码与checkpoint均已公开(GitHub: zero-to-cad / HuggingFace: zero-to-cad-dataset);• 值得深入:合成过程中的API幻觉缓解机制、跨CAD平台(Fusion 360/SolidWorks)泛化、物理约束嵌入(如公差/装配关系)、以及与人类设计师协同的交互式修正接口。
  • 相关研究
    DeepCAD: A Deep Generative Network for Computer-Aided Design Models (ICCV 2021); SketchGraphs: A Large-Scale Dataset of Hand-Drawn Sketches and Associated CAD Models (ACM TOG 2022); OpenCAD: An Open Benchmark for CAD Model Generation and Understanding (NeurIPS Datasets & Benchmarks 2023); CADGen: Generative Modeling of Parametric CAD Models Using Sequential Autoencoders (CVPR 2023); Shape as Program: Generating CAD Models Using LLMs with Execution Feedback (arXiv 2024.03); FusionPro: Multimodal CAD Generation via Diffusion and Program Synthesis (SIGGRAPH Asia 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问