探索Transformer Block精简的方式

2023-12-06

前言,标准的Transformer Block并不简介，每个block由attention, MLP, skip connection, normalization各子模块构成。一些看似微小的修改可能导致模型训练速度下降，甚至导致模型无法收敛。
在本篇工作中，我们探索了Transformer Block精简的方式。结合了信号传播理论以及一些经验性的观察，我们在不损失训练速度的前提下，移除了skip connection, out project, value project, normalization操作以及串行组织block的形式。在Decoder-only和Encoder-only两类模型上，我们减少了15%可训练参数，并提高了15%的训练速度。
官方仓库>
bobby-he/simplified_transformers,论文：Simplifying Transformer Blocks.,一些标记注解>
探索Transformer Block精简的方式 (https://ic.work/) AI 人工智能第1张

每个transformer block如上述公式组成，每个子模块都配备了一个系数，这个后续会使用到,Removing Skip Connection,作者先前的一项工作Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation 删除了残差连接，提出的操作Value-SkipInit，将自注意力相关操作修改为>
探索Transformer Block精简的方式 (https://ic.work/) AI 人工智能第3张
其中I代表的是一个Identity操作，A表示原始注意力操作。这两个操作各自有一个可训练标量和，初始化为 , 。
这个设计的insight是每个token在训练前期更多的是关注自身相关性，类似的如Pre-LN操作，在Batch Normalization Biases Residual Blocks Towards the Identity Function in Deep Networks这项工作发现，Pre-LN相当于把 skip-branch 权重提高，降低residual-branch权重，以在较深的神经网络里仍然有良好的信号传播。
而The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit 该工作里提出了Shape Attention，也是收到信号传播理论的启发，将注意力公式更改为>
探索Transformer Block精简的方式 (https://ic.work/) AI 人工智能第4张
相比之下多了一个C矩阵，这是个常量矩阵已经通过前面的一系列修改实现了，因此可以直接删除Norm层,
当然还是得看实验效果，回到这张图，可以看到移除了Norm对收敛还是有一定影响的。作者猜测在信号传播理论范围之外，Norm层能加速训练收敛，如Scaling Vision Transformers to 22 Billion Parameters,
引入了更多LayerNorm层，将ViT缩放至22B参数量上,因此作者还是主张保留PreLN结构>

最后实验,作者也补充了一些训练速度benchmark，模型准确率，以及收敛趋势的实验>

总结,作者对Transformer Block移除了各种参数，减少了15%参数量，提高了15%的训练速度，各个环节都有做充分的实验，但一些经验性得到的结论也并没有直接回答一些问题。
实验规模并不大，而标准的TransformerBlock还是在各个Scale里得到广泛验证的，期待有人进一步试验,你说的对，但我还是套LLAMA结构

文章推荐

探索Transformer Block精简的方式

相关推荐

伟测集成电路芯片测试基地竣工，晶圆级与成品测试项目全面启动。

俄罗斯光刻机突破，350nm技术成功实现，引领科技新篇章。

中国团队突破，全可编程拓扑光子芯片研制成功，引领科技新潮流。

上海新政力推人工智能、算力芯片，科技新风向，不容错过！

美国拟限AI大模型出口，全球科技格局生变，速览最新动态！

博世2024传感器新品：SCS智能互联与两大创新系列，引领行业变革。

OpenAI发布AI图片检测工具，准确率98%，并研发AI音频水印，引领新潮流。

AI医院小镇登陆清华，AI医生超人类，数天诊治万人，快来体验未来医疗！

谷歌AlphaFold 3预测生命分子，登Nature，免费开放，加速科研亿年！

OpenAI掌门人谈AI：末日说夸张，对技术革命持乐观审慎态度。

推荐

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

一文带你搞懂开关电源电路

基于脱硝系统改造的自动化优化分析

阿诗特能源L1000液冷新品震撼上市，卓越性能，引领未来！

博世与芯驰科技全面深化战略合作围绕车用半导体核心技术

PLL锁相环：工作原理简述，高效同步控制的核心技术。

中科曙光助力北京航天总医院打造24小时在线的AI医疗助手

国产替代奋进高端，创新引领，开启替代新篇章。

模拟芯片与数字芯片各有独特优势，各具魅力，吸引你的目光。

本征半导体，基础材料之选，了解它，掌握电子世界的关键！

最近更新

TrendForce集邦咨询: 关税变量对显示器需求与售价及AMOLED上游材料的影响

S参数与插入损耗和回波损耗

基于SiWG917Y的无电池Wi 6传感器

NVIDIA推出AI医疗健康机器人开发平台

施耐德电气发布数据中心高密度AI集群部署解决方案

航裕电源亮相2025慕尼黑上海电子展

RECOM RACPRO1系列荣获2025年红点产品设计奖

广汽昊铂首家直营交付中心开业

季丰成都实验室开启芯片微加工新篇章

航裕电源亮相2025俄罗斯国际电子元器件展

探索Transformer Block精简的方式

相关推荐

推荐

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

一文带你搞懂开关电源电路

基于脱硝系统改造的自动化优化分析

阿诗特能源L1000液冷新品震撼上市，卓越性能，引领未来！

博世与芯驰科技全面深化战略合作 围绕车用半导体核心技术

PLL锁相环：工作原理简述，高效同步控制的核心技术。

中科曙光助力北京航天总医院打造24小时在线的AI医疗助手

国产替代奋进高端，创新引领，开启替代新篇章。

模拟芯片与数字芯片各有独特优势，各具魅力，吸引你的目光。

本征半导体，基础材料之选，了解它，掌握电子世界的关键！

最近更新

TrendForce集邦咨询: 关税变量对显示器需求与售价及AMOLED上游材料的影响

S参数与插入损耗和回波损耗

基于SiWG917Y的无电池Wi 6传感器

NVIDIA推出AI医疗健康机器人开发平台

施耐德电气发布数据中心高密度AI集群部署解决方案

航裕电源亮相2025慕尼黑上海电子展

RECOM RACPRO1系列荣获2025年红点产品设计奖

广汽昊铂首家直营交付中心开业

季丰成都实验室开启芯片微加工新篇章

航裕电源亮相2025俄罗斯国际电子元器件展

博世与芯驰科技全面深化战略合作围绕车用半导体核心技术