Un-0 不是赢了扩散模型，而是把物理计算推上了台面

核心摘要 Summary

Unconventional AI 发布了 Un-0：一个用耦合振荡器生成图像的模型，在 ImageNet 64×64 上做到 FID 6.74，并把权重、训练和消融代码一并开放。
它真正有意思的地方，不是已经打穿了图像生成，而是第一次把“物理做计算”这条路线较认真地推到可比较的基准上。
只是别急着把它写成能源革命，训练和评估仍然高度依赖 GPU 和传统特征栈。

内容导图 Mind Map

物理计算登场

耦合振荡器出图

相位演化后渲染

decoder仍在

ImageNet FID 6.74

最大322.44M参数

优于部分早期模型

权重代码全开放

训练评估消融齐开

仍依赖GPU训练

模拟系统未上芯片

能效落地仍待验证

AI 这几年最熟的叙事，是模型更大、GPU 更多、分数更高。Unconventional AI 这次换了个方向：他们用一套模拟的耦合振荡器系统做图像生成，ImageNet 64×64 上做到 FID 6.74，还把权重、训练和消融代码都放了出来。

我更在意的不是这个分数，而是它把一条常被写成愿景的路线，第一次比较认真地放到了同一张赛道图里。

项目	结果 / 说明
核心机制	随机相位起步，类别振荡器做条件，系统演化后取快照，再由小型 decoder 渲染像素
最佳成绩	ImageNet 64×64 FID 6.74；CIFAR-10 最佳 FID 8.76
最大模型	16,384 个振荡器，322.44M 参数
训练代价	ImageNet 最大模型用 8×B200，训练 640 B200 小时
开放内容	权重、训练、评估、消融代码
现实边界	目前是模拟的动力系统，不是已经上芯片的物理计算机

它怎么把图像“算”出来

流程其实很直白：先给所有振荡器一个随机相位；再用一组更小的类别振荡器把类别信息灌进去；让整个系统在耦合关系下自行演化；到指定时刻截取相位快照；最后交给一个传统 decoder 还原成图像。

换句话说，Un-0 确实把中间那段主干算子换掉了，但它并没有把传统神经网络整个踢出门。decoder 还在，DINOv2 特征抽取还在，AdamW 还在，训练也还是跑在 B200 上。它更像是把“做计算”的那一层，从常规层堆叠，改成了一个可训练的动力系统。

论文里也没有把自己吹成当前最强图像生成模型。它的表述很克制：质量已经能和部分早期生成模型并排，甚至在小模型参数效率上做出了一点新东西，但和 EDM、GDD 这些后期强基线比，仍然落后。

还有一个细节我觉得挺重要。作者把自己实测的结果和只能当参考的发表结果分开了：实心点是可复现的，空心点是口径不完全一致的历史数字。这个处理比很多论文诚实得多，因为 FID 本来就很怕“看起来在同一张图上，其实不是同一把尺子”。

“其兴也勃焉，其亡也忽焉。” 这句话放在物理计算这条线上很合适。热闹不难，难的是把热闹变成稳定的硬件、可编译的系统、可结算的能效。Un-0 现在证明的，是这条路不是纯概念；还没证明的，是它真的能把目标里那句约 1000x 的能效提升，变成可落地的账。

所以这次最值得记住的，不是它有没有压过扩散模型，而是它把问题改写了一次：以后要问的，可能不只是模型多强，还得问它到底在哪一层把能量省下来。图像能生成，账还没算完。

锐评 Commentary

风起于青萍之末，账却还在后头。能跑分只是开场，能落到芯片才算过关。

Un-0Unconventional AI耦合振荡器图像生成ImageNetFID物理计算扩散模型GPU开源