源2.0 运行显存仅需23GB 性能可媲美LLaMA3

2024-08-25

北京2024年8月23日 -- 近日，浪潮信息发布源2.0-M32大模型4bit和8bit量化版，性能比肩700亿参数的LLaMA3开源大模型。4bit量化版推理运行显存仅需23.27GB，处理每token所需算力约为1.9 GFLOPs，算力消耗仅为同等当量大模型LLaMA3-70B的1/80。而LLaMA3-70B运行显存为160GB，所需算力为140GFLOPs。

源2.0-M32量化版是"源"大模型团队为进一步提高模算效率，降低大模型部署运行的计算资源要求而推出的版本，通过采用领先的量化技术，将原模型精度量化至int4和int8级别，并保持模型性能基本不变。源2.0-M32量化版提高了模型部署加载速度和多线程推理效率，在不同硬件和软件环境中均能高效运行，降低了模型移植和部署门槛，让用户使用更少的计算资源，就能获取源2.0-M32大模型的强大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本，其创新性地提出和采用了"基于注意力机制的门控网络"技术，构建包含32个专家（Expert）的混合专家模型（MoE），模型运行时激活参数为37亿，在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型，大幅提升了模型算力效率。

模型量化（Model Quantization）是优化大模型推理的一种主流技术，它显著减少了模型的内存占用和计算资源消耗，从而加速推理过程。然而，模型量化可能会影响模型的性能。如何在压缩模型的同时维持其精度，是量化技术面临的核心挑战。

源2.0-M32大模型研发团队深入分析当前主流的量化方案，综合评估模型压缩效果和精度损失表现，最终采用了GPTQ量化方法，并采用AutoGPTQ作为量化框架。为了确保模型精度最大化，一方面定制化适配了适合源2.0-M32结构的算子，提高了模型的部署加载速度和多线程推理效率，实现高并发推理；另一方面对需要量化的中间层（inter_layers）进行了严格评估和筛选，确定了最佳的量化层。从而成功将模型精度量化至int4和int8级别，在模型精度几乎无损的前提下，提升模型压缩效果、增加推理吞吐量和降低计算成本，使其更易于部署到移动设备和边缘设备上。

评测结果显示，源2.0-M32量化版在多个业界主流的评测任务中性能表现突出，特别是在MATH（数学竞赛）、ARC-C（科学推理）任务中，比肩拥有700亿参数的LLaMA3大模型。

源2.0 运行显存仅需23GB 性能可媲美LLaMA3 (https://ic.work/) 产业洞察第1张

总之，源2.0-M32大模型量化版在保持推理性能的前提下，显著降低了计算资源消耗和内存占用，其采用的GPTQ量化方法通过精细调整，成功将模型适配至int4和int8精度级别。通过定制化算子优化，源2.0-M32量化版实现了模型结构的深度适配和性能的显著提升，确保在不同硬件和软件环境中均能高效运行。未来，随着量化技术的进一步优化和应用场景的拓展，源2.0-M32量化版有望在移动设备和边缘计算等领域发挥更广泛的作用，为用户提供更高效的智能服务。

文章推荐

源2.0 运行显存仅需23GB 性能可媲美LLaMA3

相关推荐

科技巨头竞相布局，数据中心绿色转型势在必行

科技巨头竞相布局，数据中心绿色转型势在必行

全球首台，独立研发！新一代C2W&W2W混合键合设备即将震撼发布！

天马供折叠屏！传音TECNO三折概念机PHANTOM ULTIMATE 2亮相MWC

保证缓存与数据库的双写一致性的方法解析

保证缓存与数据库的双写一致性的方法解析

解析压敏电阻会被损坏的原因

天马供折叠屏！传音TECNO三折概念机PHANTOM ULTIMATE 2亮相MWC

一文解析电磁场与电磁波的区别

泰克助力Magway打造零排放地下配送系统，引领物流新变革

推荐

黄仁勋中国行的背后，AI芯片暗战与英伟达生存博弈

国民技术发布国内首款Arm® Cortex®M7+M4双核异构MCU 面向具身智能机器人

北京机器人传感器公司金钢科技数千万元Pre

光子 AI 处理器的核心原理及突破性进展

解决续航、网速痛点，Wi 7 PA杀入AI眼镜

15万车型也能有车规SiC！2025年慕展6家厂商新品亮点大揭秘

TrendForce集邦咨询: 预估2025年笔电品牌出货成长率将下修至1.4%

算法进化论：从参数剪枝到意识解码的 AI 革命

让英特尔再次伟大，新CEO推动18A提前量产，14A已在路上

晶振在网通应用增光添彩：中国移动实现数字乡村大升级

最近更新

芯驰科技与Arteris深化合作

戴尔PowerEdge R770服务器的性能测试

光庭信息与芯驰科技签署战略合作协议

京东方发布2025年第一季度报告

中科曙光DeepAI深算智能引擎全面支持Qwen3

中微爱芯亮相第21届家电电源与智能控制技术研讨会

中科曙光亮相第八届数字中国建设峰会

RDK全系赋能！点猫科技与地瓜机器人共建具身智能大中小贯通培养闭环要闻

魔视智能携手德州仪器亮相2025慕尼黑上海电子展

曙光存储亮相2025 IT市场年会