Aarush Gupta在6月7日发布的文章里,讲的是一个很窄但很有意思的问题:能不能把Kolmogorov-Arnold Networks(KAN)做进FPGA,用来跑超低延迟推理,甚至在片上做在线学习。

这篇文章基于他的硕士论文和两篇2026年论文。其中一篇KANELÉ论文获得FPGA 2026 Best Paper,另一篇关于片上在线学习的论文进入ICML 2026相关讨论。

我更在意的不是奖项,也不是KAN会不会替代GPU。真正有价值的地方在于:KAN把神经网络的计算形态改了,而这种形态刚好贴近FPGA擅长的查找表逻辑。

FPGA要解决的是微秒里的浪费

GPU适合大批量、高吞吐、矩阵密集型计算。大模型训练、批处理推理、规模化服务,仍然是GPU更自然的地盘。

FPGA看的是另一类问题:一次反馈必须压到纳秒到亚微秒级,模型不大,但调度、访存、通用计算框架的开销都嫌重。量子控制、核聚变控制、实时信号处理、嵌入式推理,更接近这个约束。

所以这不是通用替代关系,而是路线选择。

路线主要优势更适合的任务现实限制
GPU上的MLP高吞吐矩阵计算大模型、批处理、训练亚微秒反馈成本高
FPGA上的固定LUT网络定制逻辑、低调度开销固定模型低延迟推理多变量LUT容易膨胀
FPGA上的KAN单变量函数查表后求和资源敏感的超低延迟推理行为和优势仍未充分探索

这对机器学习系统团队的动作很具体:不要急着把训练栈迁到FPGA,也不要把KAN当成MLP的默认替代。更现实的做法,是先挑固定模型、低延迟、批量不大的环节做板级验证。

对做控制系统和实验装置反馈环路的人,判断标准也更直接:如果系统瓶颈已经卡在单次反馈延迟,而不是吞吐量,KAN-FPGA才值得进入候选方案。否则,继续用GPU或CPU可能更省事。

KAN为什么更像LUT电路

传统MLP在节点上做加权求和,再接固定激活函数。KAN把这件事拆开:每条边不再只是一个标量权重,而是一个可学习的一元函数;节点主要负责求和。

这个差别对软件框架未必惊天动地,但对FPGA很关键。

训练完成后,KAN边上的一元activation可以量化成LUT。FPGA并行查表,再用加法树汇总输出。它绕开的不是数学计算本身,而是通用处理器在调度、访存和批处理框架里的固定开销。

原文给出的明确性能锚点是:KANELÉ相对既有KAN-FPGA实现有2700倍加速。这个数字能说明同类实现里的工程改进很强,但不能被读成相对GPU推理的全面胜利。

边界要守住。材料没有证明KAN在所有任务上优于MLP,也没有证明FPGA会变成通用AI计算平台。它目前更像“好钢用在刀刃上”的路线:刀刃就是极低延迟、强定制、低开销。

在线学习难在不能把activation存死

固定推理比较好理解。模型训练完,activation不再变化,就可以把完整函数预先量化进LUT。输入来了,查表,求和,输出。

片上在线学习不一样。模型要接收新数据,计算误差,反向传播,还要更新参数。activation会变,不能提前存死。

这时硬件里存的不是完整activation,而是B-spline basis和可更新系数。KAN的activation可以写成多个B-spline基函数与系数的线性组合。

关键是B-spline的局部性。把输入区间切成G个网格、使用S阶样条时,完整基函数数量和G有关;但对任意一个输入位置,只有S+1个基函数非零。

这让硬件复杂度更接近随S+1缩放,而不是随着网格数G线性膨胀。换句话说,提高表达能力时,可以增加网格数,但每次前向和反向计算不必同步变成一大坨逻辑。

对硬件加速团队,这意味着评估重点要从“能不能跑KAN”移到三个更硬的问题:固定点训练是否稳定,板上资源是否守得住,真实噪声和漂移下在线更新是否可靠。

对低延迟控制场景,这也给了一个清晰的观望条件。若反馈环路只需要固定模型,先看KANELÉ式推理实现;若系统必须边运行边校准,再看片上在线学习。两者不能混在一起评估。

现在能看清的是结构契合:KAN的一元函数和B-spline局部性,确实给FPGA留下了发挥空间。还看不清的是外推边界:它能否在真实控制系统里稳定胜出,能否形成可复用工具链,而不是少数团队的高水平硬件设计。

这也是我对这篇工作的判断。它不大声,但方向很硬:把机器学习从“算得更多”拉回到“能不能在规定时间内算完”。