介绍一种基于卷积和VIT的混合网络

2023-09-08

CMT:体系结构

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第1张

CMT块由一个局部感知单元(LPU)、一个轻量级多头自注意模块(LMHSA)和一个反向残差前馈网络(IRFFN)组成。

1、局部感知单元(LPU)

在以前的transformer中使用的绝对位置编码是为了利用标记的顺序而设计的，它破坏了平移不变性。

为了缓解局限性，LPU使用卷积(MobileNetV1)提取局部信息，其定义为:

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第2张

2、轻量级多头自我注意(LMHSA)

在原注意力模块中，自注意力模块为:

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第3张

为了减少计算开销，在注意力操作之前，使用k × k步长为k的深度卷积(MobileNetV1)来减小k和V的空间大小。在每个自注意力模块中添加一个相对位置偏差B(类似于Shaw NAACL ' 18):

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第4张

这里的h个是与ViT类似的注意力头。

3、反向残差前馈网络(IRFFN)

原始FFN使用两个线性层，中间是GELU:

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第5张

IRFFN由扩展层(MobileNetV1)和卷积(投影层)组成。为了更好的性能，还修改了残差连接的位置:

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第6张

使用深度卷积(MobileNetV1)提取局部信息，而额外的计算成本可以忽略不计。

4、CMT块

有了上述三个组成部分，CMT块可以表述为:

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第7张

上式中，Yi和Zi分别表示LPU和LMHSA模块对第i块的输出特征。LN表示层归一化。

CMT变体

1、模型的复杂性

Transformer 的计算复杂度(FLOPs)可计算为:

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第8张

式中，r为FFN的展开比，dk和dv分别为key和value的维度。ViT设d = dk = dv, r = 4，则计算可简化为:

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第9张

CMT块的FLOPs:

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第10张

其中k≥1为LMHSA的还原比。

可以看到，与标准Transformer块相比，CMT块对计算成本更友好，并且在更高分辨率(较大n)下更容易处理特征映射。

2、扩展策略

受EfficientNet的启发，使用复合系数φ来均匀缩放层数(深度)、维度和输入分辨率:

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第11张

增加了α·β^(1.5) ·γ²≈2.5的约束，因此对于给定的新φ，总FLOPS将大约增加2.5^ φ。根据测试，默认为α=1.2， β=1.3， γ=1.15。

3、CMT变体

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第12张

在CMT-S的基础上，根据提出的缩放策略构建了CMT-Ti、CMT-XS和CMT-B。四种模型的输入分辨率分别为160、192、224和256。

结果

1、消融研究

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第13张

ViT/DeiT只能生成单尺度的特征图，丢失了大量的多尺度信息，但是这部分信息对密集预测至关重要。

DeiT与CMT-S一样具有4级stage，即DeiT- s - 4stage，可以实现改进。

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第14张

所有的增量改进都表明，stem、LPU和IRFFN对性能的提高也有重要的贡献。CMT在LMHSA和IRFFN之前使用LN，在卷积层之后插入BN。如果将所有的LN都替换为BN，则模型在训练过程中无法收敛。

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第15张

2、ImageNet

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第16张

CMTS以4.0B FLOPs达到83.5%的top-1精度，比基线模型DeiT-S高3.7%，比CPVT高2.0%，表明CMT块在捕获局部和全局信息方面的优势。

值得注意的是，之前所有基于transformer的模型仍然不如通过彻底的架构搜索获得的EfficientNet，但是CMT-S比EfficientNet- b4高0.6%，计算成本更低，这也证明了所提出的混合结构的有效性。

3、下游任务

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第17张

对于以RetinaNet为基本框架的目标检测，CMT-S优于twin - pcpvt - s (mAP为1.3%)和twin - svt - s (mAP为2.0%)。

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第18张

以Mask R-CNN为基本框架的分割，CMT-S以1.7%的AP超过了Twins-PCPVTS，以1.9%的AP超过了Twins-SVT-S。

介绍一种基于卷积和VIT的混合网络 (https://ic.work/) 物联网第19张

CMT- s在所有数据集中以更少的FLOPs优于其他基于transformer的模型，并在FLOPs减少9倍的情况下与EfficientNet-B7达到相当的性能，这证明了CMT架构的优越性。

介绍一种基于卷积和VIT的混合网络

CMT:体系结构

CMT变体

结果

相关推荐

实时AI图像处理，监测茶叶病害，英特尔套件赋能物联网开发者

IPv6赋能物联网，应用广泛，优势显著，引领未来网络新潮流。

华为数据通信助力Net5.5G医院网络升级，提速医疗物联网发展。

智慧路灯杆助力校园安全，打造智慧校园新篇章，一文读懂！

智能家居，DLP技术展现巨大潜力，引领未来生活新潮流。

机智云物联网，打造智能家居新体验，智慧生活触手可及！

华为2023财报亮眼：净利润飙升144%达870亿，终端营收增17.3%

2024高通广和通边缘智能技术进化日圆满落幕，智启未来，创新引领

智慧路灯杆网关：揭秘超强集中供电能力，一杆掌控光明未来！

智慧杆云平台特性：三维地图详解，轻松掌握，智能体验！

推荐

TrendForce集邦咨询: 预估2025年笔电品牌出货成长率将下修至1.4%

让英特尔再次伟大，新CEO推动18A提前量产，14A已在路上

晶振在网通应用增光添彩：中国移动实现数字乡村大升级

一文解析电磁场与电磁波的区别

黄仁勋中国行的背后，AI芯片暗战与英伟达生存博弈

国民技术发布国内首款Arm® Cortex®M7+M4双核异构MCU 面向具身智能机器人

北京机器人传感器公司金钢科技数千万元Pre

光子 AI 处理器的核心原理及突破性进展

详解CPU 的大小端模式

超详细解析！电阻在电路中的作用

最近更新

洲明科技再登“中国最具价值品牌500强”

帝奥微AMOLED显示屏电源管理芯片DIO53010简介

纳芯微LED线性恒流驱动NSL21610 汽车级40V/单通道具备散热加强功能

极海半导体GALT61120汽车前灯LED矩阵控制芯片荣获AEIF 2025 金芯奖

使用恩智浦FRDM LCD模组

【CW32模块使用】1.8寸彩色触摸屏

正方科技欧荷18S30AH智能电池在大载重无人机中的应用

广和通发布5G模组FG390系列

2025年OBC的新趋势：单级拓扑

谷歌I/O 2025大会前透露：Android 16接入Gemini，智能手机、XR设备升级