AI 这几年最熟的叙事,是模型更大、GPU 更多、分数更高。Unconventional AI 这次换了个方向:他们用一套模拟的耦合振荡器系统做图像生成,ImageNet 64×64 上做到 FID 6.74,还把权重、训练和消融代码都放了出来。

我更在意的不是这个分数,而是它把一条常被写成愿景的路线,第一次比较认真地放到了同一张赛道图里。

项目结果 / 说明
核心机制随机相位起步,类别振荡器做条件,系统演化后取快照,再由小型 decoder 渲染像素
最佳成绩ImageNet 64×64 FID 6.74;CIFAR-10 最佳 FID 8.76
最大模型16,384 个振荡器,322.44M 参数
训练代价ImageNet 最大模型用 8×B200,训练 640 B200 小时
开放内容权重、训练、评估、消融代码
现实边界目前是模拟的动力系统,不是已经上芯片的物理计算机

它怎么把图像“算”出来

流程其实很直白:先给所有振荡器一个随机相位;再用一组更小的类别振荡器把类别信息灌进去;让整个系统在耦合关系下自行演化;到指定时刻截取相位快照;最后交给一个传统 decoder 还原成图像。

换句话说,Un-0 确实把中间那段主干算子换掉了,但它并没有把传统神经网络整个踢出门。decoder 还在,DINOv2 特征抽取还在,AdamW 还在,训练也还是跑在 B200 上。它更像是把“做计算”的那一层,从常规层堆叠,改成了一个可训练的动力系统。

这事的分水岭,不在分数本身

论文里也没有把自己吹成当前最强图像生成模型。它的表述很克制:质量已经能和部分早期生成模型并排,甚至在小模型参数效率上做出了一点新东西,但和 EDM、GDD 这些后期强基线比,仍然落后。

还有一个细节我觉得挺重要。作者把自己实测的结果和只能当参考的发表结果分开了:实心点是可复现的,空心点是口径不完全一致的历史数字。这个处理比很多论文诚实得多,因为 FID 本来就很怕“看起来在同一张图上,其实不是同一把尺子”。

“其兴也勃焉,其亡也忽焉。” 这句话放在物理计算这条线上很合适。热闹不难,难的是把热闹变成稳定的硬件、可编译的系统、可结算的能效。Un-0 现在证明的,是这条路不是纯概念;还没证明的,是它真的能把目标里那句约 1000x 的能效提升,变成可落地的账。

所以这次最值得记住的,不是它有没有压过扩散模型,而是它把问题改写了一次:以后要问的,可能不只是模型多强,还得问它到底在哪一层把能量省下来。图像能生成,账还没算完。