一、概述
近年来,随着半导体制程的进步,硬件计算能力和数据量都有了飞跃性的提升,使得 计算机视觉(Computer Vision) 领域迎来了全新的发展阶段。过去,图像处理大多依赖像素级别的逐一运算,而现在,通过 大数据(Big Data) 的支撑以及 深度学习(Deep Learning) 随着AI模型的成熟,它能够通过固定的学习模式从海量数据中快速创造出各种各样的应用。
人工智能技术的普及与边缘计算在工业与车辆应用中的双向崛起
在人工智能(AI)技术迅速普及的浪潮中,边缘计算(Edge Computing) 正成为工业与车辆应用的共同核心推动力。传统云计算虽然拥有强大的集中处理能力,但在实时性、高数据吞吐量以及敏感数据保护的多场景需求下,逐渐暴露其短板。而边缘计算的崛起,通过将计算能力分散至工厂现场、设备端及车辆内部,为此提供了解决方案。两个领域提供了解决方案。
工业应用的价值
■ 降低延迟:就近处理来自传感器与设备的数据,确保生产线与工业机器人等实时反应能力。
■ 减轻网络负担:在边缘端完成大数据预处理,减少工厂内部和外部网络的压力,提升运营效率。
■ 保护隐私:在边缘完成关键工业数据处理,避免敏感生产数据外流,确保企业机密和用户隐私。
车辆应用的价值
■ 即时决策:车载边缘设备实时处理摄像头、LIDAR 和雷达数据,确保自动驾驶汽车的快速决策。
■ 本地运算优化:降低车辆对外部网络的依赖,并确保在网络中断的情况下仍然可靠执行。
■ 数据隐私保障:本地化处理车辆内部数据(如驾驶行为与位置信息),减少对云端的依赖,保护驾驶者隐私。
随着 2024 年生成式 AI 的爆发,创造出更多 AI 应用需求的多样化发展,边缘计算不仅仅是一项辅助技术,更成为现代 AI 应用的重要基石。
MemryX:边缘计算与浮点计算的革新者
在边缘计算浪潮中,MemryX 加速卡脱颖而出,凭借其强大的浮点运算能力和全面的软件支持,成为边缘 AI 应用的理想选择。与传统专注于整型运算的解决方案不同,浮点运算对于需要高度精确的 AI 推理场景至关重要。MemryX 解决方案在低功耗 ( 1W / 5 TFLOPS ) 的情况下提供 20 TFLOPS 的卓越性能,成为物体检测、图像识别、肢体识别、语义分割、深度估计和自然语言处理等应用的关键推动力。
全面的软件支持:助力开发者快速部署
MemryX 不仅硬件性能卓越,还提供丰富的软件生态,包括模块评估工具、API 接口、驱动程序与开发工具,帮助开发者快速整合并优化 AI 模型运行。其软件支持涵盖:
■ 芯片模拟性能(Simulator)
■ 权重精度调整(Weight Precision)
■ 模型裁剪(Model Cropping)工具
■ AI DEMO GitHub 资源
■ 模型库资源
■ 模型探索器资源
卓越的AI性能
利用 MemryX MX3 芯片运行当前最热门的 YOLOv8-Nano 目标检测算法,可轻松达到每秒约 350 张。
二、MemryX:边缘运算与浮点计算的革新者
MemryX 于2019年由现任密歇根大学电机系的卢伟博士与张正亚博士共同创立,目前由前高通(Qualcomm)副总裁 Keith Kressin 担任首席执行官。其设计理念主打轻便、小巧、省电、高精度(浮点运算)、可迭代算力、不占用主平台资源等特点,荣获2022 EE Awards 亚洲金选奖- 最具潜力产品(Most Promising Product)。同时,活跃于各大社交媒体,赶快加入吧!领英 官方账号!!即时发布最新的 MemryX 信息。
MemryX 最新的 MX3 芯片,具有低功耗、高计算能力 ( 1W / 5 TFLOPS )、高跨平台整合性等等优势,其中以 16 位浮点运算 (BF16) 为主,可以确保模型的准确度,并提供丰富的模块资源与整合套件,能让用户体验更完善的 AI 资源整合,如下图所示。其中 AI 芯片内部亦有高频的内存配置,用以消除高运算时所带来的内存瓶颈。因此需要衡量所使用的模块大小,一颗芯片大约能够处理 10 M 参数数据量。举例来说,A 模块为 40 M 参数量,则需要搭配 4 颗 MX3 芯片才能使用。
规格
优势介绍
(1) 采用浮点数 (BF16) 进行计算,确保模块准确度。
(2) 不占用系统内存
(3) 可扩展性 (最多可连接 16 个芯片)
(4) 最佳数据流优化,能够最大限度地减少数据移动
(5) 模块具有最佳可操作性,能够配合其他硬件加速器进行二次优化
软件框架 (Software Framework)
MemryX开发者中心包含编译器(Compiler)、运行时(Runtime)、公用工具(Utility Tools)来驱动旗下的MemryX AI SoCs系列。如下图所示:
▼ 编译器(Compiler)
神经编译器提供多种功能,例如多模型整合(Multi-Model)、模型剪枝(Model Cropping)、多路流输入单一应用(Multiple Input Streams)、单路流输入多个应用(Shared Input Stream)、混合精度权重(Mixed-Precision Weights)、模块资源使用情况显示(Resources Utilization)。通过简单的命令行指令,能够帮助开发者。快速转换模块将 Pytorch、Keras、Tensorflow、Tensorflow Lite、ONNX 等模型转换为 MemryX DFP 模组格式。
▼ 运行器(Runtime)
提供优化的用户体验,利用 Benchmark 搭配模型库能够帮助开发者快速评估其硬件性能与准确度,并且提供多种开源示例 DEMO ( MemryX Example ) 与简洁有力的 API 能够帮助开发者快速实现与部署AI应用。
基准测试(Python,C/C++)
加速器 API(Python,C/C++)
▼ 公用工具(Utility Tools)
模拟器 (Simulator) : 为 MemryX 提供的软件,幫助没有 MX3 芯片的开发者完成性能评估。
可视化工具(Viewer ) : 为 MemryX 提供的 GUI 界面,包括上述编译器、模拟器、加速器。
检查器(DFP Inspect): 为 MemryX 提供的一套检查 DFP 文件的工具。
▼ DEMO 示例
MemryX 原厂提供许多 AI 示例,一步步教导开发者如何实现 AI 应用!
https://github.com/memryx/MemryX_eXamples/tree/release
注意:必须注意以下示例均为开源模型,不能用于商业用途!谢谢。
三、结语
如下列原厂发布的新闻稿提到,MemryX 是如何通过 AI 芯片来改变边缘人工智能应用的客户体验
1. 高帧率 (High FPS)
MemryX 的数据流与内存计算架构适合流水线操作。一张低功耗的 MemryX M.2 卡可以同时处理 10 个摄像头流,运行一个或多个 AI 模型,特别适合如视频管理系统等对实时性要求高的应用场景。
2. 高模型精度与自动化编译
MemryX 提供只需一键即可完成高精度 AI 模型编译的工具。MX3 支持浮点运算 (BF16),能确保模型的准确性与完整性,无需重新训练模型或进行额外调整。相比于目前主流的整数模块 (INT),MemryX 能够让客户快速部署高效且准确的 AI 应用。
3. 保持原始模型的完整性
不同于其他解决方案需要改动模型来适配硬件,MemryX 支持直接在 MX3 上编译与运行原始模型,并提供可选的模型剪枝与压缩功能以实现设计优化。
4. 自动前/后处理
MemryX 自动识别并打包 AI 模型中的前处理与后处理代码,帮助开发者快速整合,减少手动调整的复杂度,提升部署效率。
5. 卓越的可扩展性
MX3 可以单芯片使用,也可以多芯片结合为逻辑单元,支持从单台智能摄像机到 16 芯片边缘服务器的应用,所有配置共享相同的软件和接口,无需增加 PCIe 交换器等额外硬件。
6. 低功耗设计
每个 MX3 芯片仅消耗 0.5-2.0 W,而整个 4 芯片 M.2 模组的功耗不到主流 GPU 的十分之一,同时提供更高效的边缘 AI 性能。
7. 广泛的软件与硬件支持
MemryX 支持多种操作系统及 x86、ARM 和 RISC-V 平台,适配广泛的硬件环境,为开发者提供灵活性。
因此,MemryX 凭借其创新的 MX3 解决方案,正在重新定义边缘人工智能的应用范畴从高效的浮点运算能力到丰富的软件支持,再到可扩展性和低功耗设计,MemryX 正在为边缘计算的未来奠定坚实的基础。其核心技术不仅解决了当前市场的诸多痛点,更为开发者和企业用户提供了灵活、快速且可靠的 AI 部署方案。此外,MemryX 提供多种核心平台的硬件加速解决方案将 MX3 芯片与周边硬件整合,更能充分发挥 1+1 大于 2 的平台性能。
随着人工智能在零售、汽车、工业、农业和机器人等行业中的广泛应用,MemryX 正站在边缘计算技术的前沿,为客户提供卓越的性能和更高的价值。在未来,MemryX 将继续推动技术创新,成为 AI 边缘计算领域中不可或缺的合作伙伴通过上述原厂提供的工具与示例,AI 不再是遥不可及的梦想,只需一步步按照示例步骤操作,就可以快速实现任何智能应用。若想试用或购买 MemryX 产品的新伙伴,请直接联系伊布小编(email: weilly.li@wpi-group.com)!谢谢!
四、参考文件
[1] MemryX 官方网站
[2] MemryX 开发者中心技术网站
[3] EE Awards 2022 亚洲金选奖
[4] MemryX - LinkedIn 官方账号
[5] MemryX_示例
[6] PR Newswire - MemryX宣布MX3边缘AI加速器正式投产
欢迎关注大大通博主:ATU 伊布小编 (一部)
了解MPU技术整合、深度学习、电脑视觉技术与人工智能(AI)的发展等更多相关内容