寒武纪推出第三代云端AI芯片——思元370,7nm工艺,算力高达256TOPS ...

2021-11-05

2021年11月3日,寒武纪发布第三代云端AI芯片思元370、基于思元370的两款加速卡MLU370-S4和MLU370-X4及全新升级的Cambricon Neuware软件栈。

寒武纪推出第三代云端AI芯片——思元370,7nm工艺,算力高达256TOPS ... (https://ic.work/) 推荐 第1张

基于7nm制程工艺,思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片,集成了390亿个晶体管,最大算力高达256TOPS(INT8),是寒武纪第二代产品思元270算力的2倍。凭借寒武纪最新智能芯片架构MLUarch03,相较于峰值算力的提升,思元370实测性能表现更为优秀:以ResNet-50为例,MLU370-S4加速卡(半高半长)实测性能为同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全长)实测性能与同尺寸主流GPU相当,能效则大幅领先。
思元370也是国内第一颗支持LPDDR5内存的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。
同时,寒武纪全新升级了Cambricon Neuware软件栈,新增推理加速引擎MagicMind,实现训推一体,显著提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。
寒武纪智能处理器架构MLUarch03,拥有新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完备,更高效且向前兼容。

寒武纪推出第三代云端AI芯片——思元370,7nm工艺,算力高达256TOPS ... (https://ic.work/) 推荐 第2张

有7nm先进工艺和全新MLUarch03架构的加持,思元370芯片算力最高可达256TOPS(INT8),是上一代产品思元270算力的2倍。相较于峰值算力的提升,思元370在实测性能和能效方面的表现更为优秀:以ResNet-50为例,MLU370-S4加速卡(半高半长)实测性能为同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全长)实测性能与同尺寸主流GPU相当,能效则大幅领先。

寒武纪推出第三代云端AI芯片——思元370,7nm工艺,算力高达256TOPS ... (https://ic.work/) 推荐 第3张

思元370全面加强了FP16、BF16以及FP32的浮点算力,同时支持推理和训练任务。此外,思元370还是国内第一颗支持LPDDR5的云端AI芯片,内存带宽是上一代产品的3倍,访存能效达GDDR6的1.5倍。
思元370采用chiplet(芯粒)技术,在一颗芯片中封装2颗AI计算芯粒(MLU-Die),每一个MLU-Die具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口,通过MLU-Fabric保证两个MLU-Die间的高速通讯,可以通过不同MLU-Die组合规格多样化的产品,为用户提供适用不同场景的高性价比AI芯片。MLU-Fabric是实现芯粒技术的关键所在。它为两个MLU-Die提供低功耗、低延时和超高带宽的互联,支持芯片上实现统一的内存获取和地址映射,创建虚拟通路避免进程死锁,支持数据校验错误发生时进行数据重传,保证数据准确性。
思元370升级了视频图像编解码单元,可提供更高效的视频处理能力和更优的编码质量,支持更复杂、更繁重、低延时要求的计算机视觉任务。
解码方面,思元370集成了强大的媒体性能,可支持132路1080p视频解码或10路8K视频解码。编码方面,全新编码器通过灵活的码率优化(RDO)控制、多参考帧、二次编码等特性组合,在相同图像质量(全高清视频PSNR)的情况下比上一代产品节省42%带宽,有效降低带宽成本。
此次发布中,两款基于思元370的加速卡正式亮相:高密度、半高半长、功耗75W的MLU370-S4智能加速卡和高性能、全高全长、功耗150W的MLU370-X4智能加速卡。与上一代产品相比,370系列加速卡在性能、能效方面都有更为卓越的表现。例如,对标准ResNet-50v1进行软件定制优化后,MLU370-X4加速卡性能高达30204fps。
在Cambricon Neuware SDK上实测,在常用的4个深度学习网络模型上,MLU370-S4加速卡的性能平均接近市场主流70W GPU的2倍。而在能效方面,MLU370-S4优势更为明显,处理相同AI任务相较于70W GPU用电量减少50%以上,将有力地帮助用户实现“双碳”目标。
文章推荐

相关推荐