寒武纪推出第三代云端AI芯片——思元370,7nm工艺,算力高达256TOPS ...

2021-11-05

2021年11月3日，寒武纪发布第三代云端AI芯片思元370、基于思元370的两款加速卡MLU370-S4和MLU370-X4及全新升级的Cambricon Neuware软件栈。

寒武纪推出第三代云端AI芯片——思元370,7nm工艺,算力高达256TOPS ... (https://ic.work/) 推荐第1张

基于7nm制程工艺，思元370是寒武纪首款采用chiplet（芯粒）技术的AI芯片，集成了390亿个晶体管，最大算力高达256TOPS(INT8)，是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03，相较于峰值算力的提升，思元370实测性能表现更为优秀：以ResNet-50为例，MLU370-S4加速卡（半高半长）实测性能为同尺寸主流GPU的2倍；MLU370-X4加速卡（全高全长）实测性能与同尺寸主流GPU相当，能效则大幅领先。

思元370也是国内第一颗支持LPDDR5内存的云端AI芯片，内存带宽是上一代产品的3倍，访存能效达GDDR6的1.5倍。

同时，寒武纪全新升级了Cambricon Neuware软件栈，新增推理加速引擎MagicMind，实现训推一体，显著提升了开发部署的效率，降低用户的学习成本、开发成本和运营成本。

寒武纪智能处理器架构MLUarch03，拥有新一代张量运算单元，内置Supercharger模块大幅提升各类卷积效率；采用全新的多算子硬件融合技术，在软件融合的基础上大幅减少算子执行时间；片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍；推出全新MLUv03指令集，更完备，更高效且向前兼容。

寒武纪推出第三代云端AI芯片——思元370,7nm工艺,算力高达256TOPS ... (https://ic.work/) 推荐第2张

有7nm先进工艺和全新MLUarch03架构的加持，思元370芯片算力最高可达256TOPS(INT8)，是上一代产品思元270算力的2倍。相较于峰值算力的提升，思元370在实测性能和能效方面的表现更为优秀：以ResNet-50为例，MLU370-S4加速卡（半高半长）实测性能为同尺寸主流GPU的2倍；MLU370-X4加速卡（全高全长）实测性能与同尺寸主流GPU相当，能效则大幅领先。

寒武纪推出第三代云端AI芯片——思元370,7nm工艺,算力高达256TOPS ... (https://ic.work/) 推荐第3张

思元370全面加强了FP16、BF16以及FP32的浮点算力，同时支持推理和训练任务。此外，思元370还是国内第一颗支持LPDDR5的云端AI芯片，内存带宽是上一代产品的3倍，访存能效达GDDR6的1.5倍。

思元370采用chiplet（芯粒）技术，在一颗芯片中封装2颗AI计算芯粒（MLU-Die），每一个MLU-Die具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口，通过MLU-Fabric保证两个MLU-Die间的高速通讯，可以通过不同MLU-Die组合规格多样化的产品，为用户提供适用不同场景的高性价比AI芯片。MLU-Fabric是实现芯粒技术的关键所在。它为两个MLU-Die提供低功耗、低延时和超高带宽的互联，支持芯片上实现统一的内存获取和地址映射，创建虚拟通路避免进程死锁，支持数据校验错误发生时进行数据重传，保证数据准确性。

思元370升级了视频图像编解码单元，可提供更高效的视频处理能力和更优的编码质量，支持更复杂、更繁重、低延时要求的计算机视觉任务。

解码方面，思元370集成了强大的媒体性能，可支持132路1080p视频解码或10路8K视频解码。编码方面，全新编码器通过灵活的码率优化（RDO）控制、多参考帧、二次编码等特性组合，在相同图像质量（全高清视频PSNR）的情况下比上一代产品节省42%带宽，有效降低带宽成本。

此次发布中，两款基于思元370的加速卡正式亮相：高密度、半高半长、功耗75W的MLU370-S4智能加速卡和高性能、全高全长、功耗150W的MLU370-X4智能加速卡。与上一代产品相比，370系列加速卡在性能、能效方面都有更为卓越的表现。例如，对标准ResNet-50v1进行软件定制优化后，MLU370-X4加速卡性能高达30204fps。

在Cambricon Neuware SDK上实测，在常用的4个深度学习网络模型上，MLU370-S4加速卡的性能平均接近市场主流70W GPU的2倍。而在能效方面，MLU370-S4优势更为明显，处理相同AI任务相较于70W GPU用电量减少50%以上，将有力地帮助用户实现“双碳”目标。

文章推荐

寒武纪推出第三代云端AI芯片——思元370,7nm工艺,算力高达256TOPS ...

相关推荐

可穿戴新品频出：小米手表手势交互功能抢眼，OPPO耳机自研“灵动蓝牙”

三星存储，开始反击！

Nakheel与DEWA合作，在杰贝阿里棕榈岛建设2.7亿迪拉姆的变电站

黑芝麻智能入围2024武汉民营企业科技创新50强

德州仪器股票分析:增长已经放缓的德州仪器，该买入还是卖出?

抛弃8GB内存，端侧AI大模型加速内存升级

苹果大动作苹果将收购全球星20%股份苹果同意收购Pixelmator

得瑞领新加入全球计算联盟（GCC），携手共创新型计算产业

移远通信发布八款天线新品，覆盖多领域需求

时的科技完成数亿元B轮融资

推荐

一文带你搞懂开关电源电路

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

模拟芯片与数字芯片各有独特优势，各具魅力，吸引你的目光。

PLL锁相环：工作原理简述，高效同步控制的核心技术。

本征半导体，基础材料之选，了解它，掌握电子世界的关键！

国产替代奋进高端，创新引领，开启替代新篇章。

STM32单片机简介

国产化加速，GE医疗MR东半球总部落户，共创医疗新篇章！

高压智能电池检流器USB，HV-IBSS-USB，高效便捷，轻松检测电池状态。

阿诗特能源L1000液冷新品震撼上市，卓越性能，引领未来！

最近更新

可穿戴新品频出：小米手表手势交互功能抢眼，OPPO耳机自研“灵动蓝牙”

三星存储，开始反击！

Nakheel与DEWA合作，在杰贝阿里棕榈岛建设2.7亿迪拉姆的变电站

黑芝麻智能入围2024武汉民营企业科技创新50强

德州仪器股票分析:增长已经放缓的德州仪器，该买入还是卖出?

UART串口通信示例：开启通信宝藏之门的定位模组LuatOS入门

不可错过的Air780E之WebSocket应用示范！小白篇

FaceTime成诈骗“帮凶”，苹果是怎么一步步丢掉“安全”光环的？

“先进阿秒激光设施（西安部分）”国家重大科技基础设施正式启动

当AI遇见光子——研究显示前沿交叉学科正成为科研朝阳领域