Transformer迎来强劲竞争者新架构Mamba引爆AI圈！

屹立不倒的 Transformer 迎来了一个强劲竞争者。
在别的领域，如果你想形容一个东西非常重要，你可能将其形容为「撑起了某领域的半壁江山」。但在 AI 大模型领域，Transformer 架构不能这么形容，因为它几乎撑起了「整个江山」。
自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，但随着模型规模的扩展和需要处理的序列不断变长，Transformer 的局限性也逐渐凸显。一个很明显的缺陷是：Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长，比如上下文增加 32 倍时，计算量可能会增长 1000 倍，计算效率非常低。
为了克服这些缺陷，研究者们开发出了很多注意力机制的高效变体，但这往往以牺牲其有效性特为代价。到目前为止，这些变体都还没有被证明能在不同领域发挥有效作用。
最近，一项名为「Mamba」的研究似乎打破了这一局面。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第1张
在这篇论文中，研究者提出了一种新的架构 ——「选择性状态空间模型」。它在多个方面改进了先前的工作。
作者表示，「Mamba」在语言建模方面可以媲美甚至击败 Transformer。而且，它可以随上下文长度的增加实现线性扩展，其性能在实际数据中可提高到百万 token 长度序列，并实现 5 倍的推理吞吐量提升。
消息一出，人们纷纷点赞，有人表示已经迫不及待想要把它用在大模型上了。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第2张
作为通用序列模型的骨干，Mamba 在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面，无论是预训练还是下游评估，他们的 Mamba-3B 模型都优于同等规模的 Transformer 模型，并能与两倍于其规模的 Transformer 模型相媲美。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第3张
这篇论文的作者只有两位，一位是卡内基梅隆大学机器学习系助理教授 Albert Gu，另一位是 Together.AI 首席科学家、普林斯顿大学计算机科学助理教授Tri Dao。
Albert Gu 表示，这项研究的一个重要创新是引入了一个名为「选择性 SSM」的架构，该架构是 Albert Gu 此前主导研发的 S4 架构的一个简单泛化，可以有选择地决定关注还是忽略传入的输入。一个「小小的改变」—— 让某些参数成为输入的函数，结果却非常有效。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第4张
值得一提的是，S4 是一个非常成功的架构。此前，它成功地对 Long Range Arena 中的长程依赖进行了建模，并成为首个在 Path-X 上获得高于平均性能的模型。更具体地说，S4 是一类用于深度学习的序列模型，与 RNN、CNN 和经典的状态空间模型广泛相关。SSM 是独立的序列转换，可被整合到端到端神经网络架构中。Mamba 论文也讨论了一些著名的 SSM 架构，比如 Linear attention、H3、Hyena、RetNet、RWKV，其中许多也将作为论文研究的基线。Mamba 的成功让 Albert Gu 对 SSM 的未来充满了信心。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第5张
Tri Dao 则是 FlashAttention、Flash Attention v2、Flash-Decoding的作者。FlashAttention 是一种对注意力计算进行重新排序并利用经典技术加快速度并将内存使用从序列长度的二次减少到线性的算法。Flash Attention v2、Flash-Decoding 都是建立在 Flash Attention 基础上的后续工作，把大模型的长文本推理效率不断推向极限。在 Mamba 之前，Tri Dao 和 Albert Gu 也有过合作。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第6张
另外，这项研究的模型代码和预训练的检查点是开源的，参见以下链接：https://github.com/state-spaces/mamba.,

论文链接：https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf,https://github.com/state-spaces/mamba,方法创新
论文第 3.1 节介绍了如何利用合成任务的直觉来启发选择机制，第 3.2 节解释了如何将这一机制纳入状态空间模型。由此产生的时变 SSM 不能使用卷积，导致了高效计算的技术难题。研究者采用了一种硬件感知算法，利用当前硬件的内存层次结构来克服这一难题。第 3.4 节描述了一个简单的 SSM 架构，不需要注意力，甚至不需要 MLP 块。第 3.5 节讨论了选择机制的一些其他特性。
选择机制
研究者发现了此前模型的一个关键局限：以依赖输入的方式高效选择数据的能力。
序列建模的一个基本方法是将上下文压缩到更小的状态，我们可以从这个角度来看待当下流行的序列模型。例如，注意力既高效又低效，因为它根本没有明确压缩上下文。这一点可以从自回归推理需要明确存储整个上下文这一事实中看出，这直接导致了 Transformer 缓慢的线性时间推理和二次时间训练。
递归模型的效率很高，因为它们的状态是有限的，这意味着恒定时间推理和线性时间训练。然而，它们的高效性受限于这种状态对上下文的压缩程度。
为了理解这一原理，下图展示了两个合成任务的运行示例>
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第9张
研究者设计了一种简单的选择机制，根据输入对 SSM 参数进行参数化。这样，模型就能过滤掉无关信息，并无限期地记住相关信息。
将选择机制纳入模型的一种方法是让影响序列交互的参数与输入相关。算法 1 和 2 展示了本文使用的主要选择机制。其主要区别在于，该方法只需将几个参数 ∆，B，C 设置为输入函数，并在整个过程中改变张量形状。这些参数现在都有一个长度维度 L ，意味着模型已经从时间不变变为时间可变。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第10张
硬件感知算法
上述变化对模型的计算提出了技术挑战。所有先前的 SSM 模型都必须是时间和输入不变的，这样才能提高计算效率。为此，研究者采用了一种硬件感知算法，通过扫描而不是卷积来计算模型，但不会将扩展状态具体化，以避免在 GPU 存储器层次结构的不同级别之间进行 IO 访问。由此产生的实现方法在理论上和现有硬件上都比以前的方法更快。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第11张
架构
研究者将先前的 SSM 架构设计与 Transformer 的 MLP 块合并为一个块，从而简化了深度序列模型架构，形成了一种包含选择性状态空间的简单、同质的架构设计。
与结构化 SSM 一样，选择性 SSM 也是一种独立的序列变换，可以灵活地融入神经网络。H3 架构是著名的同质化架构设计的基础，通常由线性注意力启发的块和 MLP块交错组成。
研究者简化了这一架构，将这两个部分合二为一，均匀堆叠，如图 3。他们受到门控注意力单元的启发，该单元也对注意力做了类似的处理。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第12张
选择性 SSM 以及 Mamba 架构的扩展是完全递归模型，几个关键特性使其适合作为在序列上运行的通用基础模型的骨干>
高质量：选择性为语言和基因组学等密集模型带来了强大的性能。
快速训练和推理：在训练过程中，计算量和内存与序列长度成线性关系，而在推理过程中，由于不需要缓存以前的元素，自回归展开模型每一步只需要恒定的时间。
长上下文：质量和效率共同提高了实际数据的性能，序列长度可达 100 万。
实验评估
实证验证了 Mamba 作为通用序列基础模型骨干的潜力，无论是在预训练质量还是特定领域的任务性能方面，Mamba 都能在多种类型的模态和环境中发挥作用>
合成任务。在复制和感应头等重要的语言模型合成任务上，Mamba 不仅能轻松解决，而且能推断出无限长的解决方案。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第13张
音频和基因组学。在音频波形和 DNA 序列建模方面，Mamba 在预训练质量和下游指标方面都优于 SaShiMi、Hyena、Transformer 等先前的 SOTA 模型。在这两种情况下，它的性能随着上下文长度的增加而提高，最高可达百万长度的序列。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第14张
语言建模。Mamba 是首个线性时间序列模型，在预训练复杂度和下游评估方面都真正达到了 Transformer 质量的性能。通过多达 1B 参数的缩放规律，研究者发现 Mamba 的性能超过了大量基线模型，包括 LLaMa 这种非常强大的现代 Transformer 训练配方。
Transformer迎来强劲竞争者新架构Mamba引爆AI圈！ (https://ic.work/) AI 人工智能第15张
与类似规模的 Transformer 相比，Mamba 具有 5 倍的生成吞吐量，而且 Mamba-3B 的质量与两倍于其规模的 Transformer 相当。

Transformer迎来强劲竞争者新架构Mamba引爆AI圈！

相关推荐

伟测集成电路芯片测试基地竣工，晶圆级与成品测试项目全面启动。

俄罗斯光刻机突破，350nm技术成功实现，引领科技新篇章。

中国团队突破，全可编程拓扑光子芯片研制成功，引领科技新潮流。

上海新政力推人工智能、算力芯片，科技新风向，不容错过！

美国拟限AI大模型出口，全球科技格局生变，速览最新动态！

博世2024传感器新品：SCS智能互联与两大创新系列，引领行业变革。

OpenAI发布AI图片检测工具，准确率98%，并研发AI音频水印，引领新潮流。

AI医院小镇登陆清华，AI医生超人类，数天诊治万人，快来体验未来医疗！

谷歌AlphaFold 3预测生命分子，登Nature，免费开放，加速科研亿年！

OpenAI掌门人谈AI：末日说夸张，对技术革命持乐观审慎态度。

推荐

黄仁勋中国行的背后，AI芯片暗战与英伟达生存博弈

国民技术发布国内首款Arm® Cortex®M7+M4双核异构MCU 面向具身智能机器人

北京机器人传感器公司金钢科技数千万元Pre

光子 AI 处理器的核心原理及突破性进展

解决续航、网速痛点，Wi 7 PA杀入AI眼镜

15万车型也能有车规SiC！2025年慕展6家厂商新品亮点大揭秘

算法进化论：从参数剪枝到意识解码的 AI 革命

比亚迪海鸥荣膺2025世界汽车大奖“世界城市车”冠军

Deepseek x RT：只有想不到，没有做不到，快来体验智能开发新纪元|技术集结

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

最近更新

京东方华灿亮相2025中国国际Mini/Micro LED产业技术峰会

ALED7709 汽车级 LED 驱动器 4 通道 200 mA，带 DC 控制器技术手册

LED2472G 具有LED错误检测和增益控制功能的24通道LED驱动器数据手册

电源管理芯片平台有哪些品牌？电源管理芯片解析

Taro on Harmony ：助力业务高效开发纯血鸿蒙应用

利用边缘 AI 技术延长无线电机监测的电池寿命

解析压敏电阻会被损坏的原因

ALED1262ZT 汽车级12通道LED驱动器，支持开路检测、局部调光、总线驱动和独立操作技术手册

边缘AI MPU深度盘点：品牌、型号与技术特性全解析

天马供折叠屏！传音TECNO三折概念机PHANTOM ULTIMATE 2亮相MWC

Transformer迎来强劲竞争者 新架构Mamba引爆AI圈！

相关推荐

推荐

黄仁勋中国行的背后，AI芯片暗战与英伟达生存博弈

国民技术发布国内首款Arm® Cortex®M7+M4双核异构MCU 面向具身智能机器人

北京机器人传感器公司金钢科技数千万元Pre

光子 AI 处理器的核心原理及突破性进展

解决续航、网速痛点，Wi 7 PA杀入AI眼镜

15万车型也能有车规SiC！2025年慕展6家厂商新品亮点大揭秘

算法进化论：从参数剪枝到意识解码的 AI 革命

比亚迪海鸥荣膺2025世界汽车大奖“世界城市车”冠军

Deepseek x RT：只有想不到，没有做不到，快来体验智能开发新纪元|技术集结

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

最近更新

京东方华灿亮相2025中国国际Mini/Micro LED产业技术峰会

ALED7709 汽车级 LED 驱动器 4 通道 200 mA，带 DC 控制器技术手册

LED2472G 具有LED错误检测和增益控制功能的24通道LED驱动器数据手册

电源管理芯片平台有哪些品牌？电源管理芯片解析

Taro on Harmony ：助力业务高效开发纯血鸿蒙应用

利用边缘 AI 技术延长无线电机监测的电池寿命

解析压敏电阻会被损坏的原因

ALED1262ZT 汽车级12通道LED驱动器，支持开路检测、局部调光、总线驱动和独立操作技术手册

边缘AI MPU深度盘点：品牌、型号与技术特性全解析

天马供折叠屏！传音TECNO三折概念机PHANTOM ULTIMATE 2亮相MWC

Transformer迎来强劲竞争者新架构Mamba引爆AI圈！