GenCAD 项目页面在 2025 年 5 月 24 日公布了一种图像条件 CAD 生成方法:输入一张 CAD 图像,模型输出的不是一个普通 3D 外壳,而是一段参数化 CAD 命令历史,也就是 CAD program。

这段程序可以再交给几何内核,转换成 3D solid。反常点就在这里:它不是先追求“看起来像”,而是试图复原“怎么建出来”。

对工程设计、制造和 CAE 前处理来说,这个区别很要紧。一个网格模型能展示外观,但工程师真正需要的常常是可改尺寸、可追溯步骤、能继续进入下游流程的 CAD 历史。

它解决的不是外形,而是可编辑建模过程

很多图像到 3D 方法会选择 mesh、voxel 或 point cloud。原因很现实:数据更常见,视觉任务也更好处理。

但工程代价也在这里。网格能看,未必能改;点云能拟合形状,未必能表达拉伸、倒角、布尔运算这些建模意图。

GenCAD 把目标放在参数化命令序列上。问题就从“复原一个形状”,变成“复原一段建模历史”。

这更接近 CAD 的真实工作方式,也更难。CAD 里的 B-rep 数据结构复杂,拓扑关系、几何约束、命令顺序都会影响结果。不是多喂几张图片就能解决。

路线优点工程短板GenCAD 的位置
Mesh / voxel / point cloud数据常见,适合视觉生成精度和可编辑性弱不作为最终目标
3D solid更接近工程对象如果没有历史,修改仍受限由 CAD program 转换得到
CAD program / 命令历史可编辑、可追溯表征和训练更难直接生成的核心对象

这也是我更在意 GenCAD 的原因。它的价值不在“又能从图生成 3D”,而在把生成式 AI 往 CAD 语言本身推了一步。

方法链路是四步:先压缩 CAD,再对齐图像

GenCAD 的核心架构可以拆成四段。

它先用自回归 Transformer 编码 CAD 命令序列,学习 CAD program 的潜在表示。接着用对比学习,把 CAD 命令潜空间和 CAD 图像潜空间对齐。

然后,潜空间扩散模型在图像条件下生成 CAD 命令的潜在表示。最终,解码器把潜变量还原成参数化 CAD 命令序列。

这条链路说明了一件事:直接从图片逐 token 生成 CAD 命令,风险很高。命令一错,后面的几何结果可能就崩。

先把复杂命令压到潜空间,再做图像-CAD 对齐和扩散生成,至少是在降低学习难度。它借用了近几年扩散模型处理跨模态生成的思路,但输出对象换成了可执行建模指令。

这里也要压住预期。GenCAD 不是成熟 CAD 软件的新功能,也不能直接替代 SolidWorks、Fusion、Onshape 这类专业工具。它目前更像一条研究路线:把图像生成从“视觉资产”拉向“工程建模历史”。

对工程团队的影响:可以评估,不该迁移

最该看这类工作的,是两类人。

一类是机械设计和逆向建模团队。他们会关心:草图、零件截图或概念形态,能不能减少重复建模时间。

另一类是 CAE 前处理、制造工艺和设计空间探索团队。他们关心的不是模型漂不漂亮,而是生成结果能不能被检查、修改、参数化迭代。

更具体一点,现阶段比较稳妥的动作不是采购替换,也不是团队迁移。更合理的是把它放进技术预研:看生成的 CAD program 能否被现有几何内核稳定执行,能否被工程师接手修改。

如果团队正在评估 AI 3D 工具,也不该只看渲染效果。要把评估表改一下:增加命令成功率、尺寸偏差、拓扑稳定性、历史树可读性这些指标。

目前还看不清的地方也很多。原文没有给出可工业部署的指标,也不能据此判断它能覆盖复杂装配体、自由曲面、企业模板、版本管理、制造公差和下游 CAE 约束。

这不是小问题。真实 CAD 流程里,模型不是一个孤立实体。它常常连着材料、工艺、标准件、命名规则和仿真网格要求。差之毫厘,谬以千里。

接下来最该观察三个变量:

  • 生成命令在真实几何内核里的执行成功率。
  • 复杂零件上的尺寸精度和拓扑稳定性。
  • 生成历史能否被工程师自然接手,而不是只能看演示。

如果这些变量过不了关,GenCAD 仍会停在研究演示。若能稳住,它才可能进入设计辅助、逆向建模和方案探索的工具链。