概要:文章分享了在IoT领域部署经济实用大语言模型(LLM)的新思路,介绍了阿里巴巴集团的Qwen2大语言和多模态模型系列及其特点,并详细说明了如何在高性价比SoC上部署Qwen2 0.5B-Instruct模型。同时,文章还介绍了两款爱芯元智的智能视觉芯片AX650N和AX630C,以及使用Pulsar2工具链编译Qwen2模型并在开发板上运行的方法。最后,文章还提供了性能统计和结束语,鼓励业界持续关注边缘侧设备上的AI应用发展。
在人工智能的浪潮中,一场革命性的变革正在悄然发生。今天,我们将一起探索这场变革的核心——Qwen2,阿里巴巴集团Qwen团队精心打造的大语言模型与大型多模态模型系列的新篇章。
背景与现状
随着云端大模型与端侧小模型的协同作战,用户体验得到了前所未有的提升。今年,手机厂家纷纷推出了端侧小模型版本,IoT领域也迎来了新的机遇。我们不禁思考:是否能在IoT设备中部署经济实用的LLM,赋予它们更加智能的属性?
本文将带你领略如何将最新的端侧大语言模型部署到高性价比SoC上,为端侧大模型部署的开发者们开启一扇新的大门。
Qwen2:革新的力量
Qwen,作为阿里巴巴集团Qwen团队的创新之作,已经升级至Qwen2版本。这款模型不仅在多语言和多模态数据上进行了大规模预训练,还通过高质量数据进行微调,使其更加贴近人类偏好。Qwen2具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、作为AI Agent进行互动等多种能力,真正实现了智能的全方位覆盖。
Qwen2的五大特点,更是彰显了其技术上的先进性:
1. 提供5种模型规模,满足不同场景需求。
2. 每种尺寸均提供基础模型和指令微调模型,确保按人类偏好校准。
3. 支持多语言,打破沟通障碍。
4. 稳定支持32K长度上下文,让对话更加流畅。
5. 支持工具调用、RAG、角色扮演、AI Agent等功能,拓展无限可能。
芯片的力量:AX650N与AX630C
在探索端侧大模型部署的道路上,我们选择了爱芯元智的AX650N与AX630C两款高性能芯片。AX650N以其高能效比、强大的视觉处理能力,以及出色的编解码能力,为边缘智能计算提供了强大的支撑。而AX630C则凭借新一代智眸4.0 AI-ISP和高性能NPU引擎,在低功耗、高画质、智能处理和分析等方面达到了行业领先。
LLM编译与部署
为了实现Qwen2在AX650N与AX630C上的高效部署,我们采用了Pulsar2这一新一代AI工具链。通过Pulsar2的模型转换、离线量化、模型编译、异构调度等功能,我们成功编译出了能在两款芯片上运行的大模型版本。同时,我们还对embed进行了提取和优化,确保模型在端侧设备上能够高效运行。
实战演练:开发板运行
在AX650N开发板上,我们运行了Qwen2 0.5B模型。通过与开发板的交互,我们见证了Qwen2在端侧设备上的强大能力。无论是自然语言理解还是文本生成,Qwen2都展现出了出色的性能。同时,我们还提供了基于AX630C开发板的视频示例和性能统计,让开发者们更加直观地了解Qwen2在端侧设备上的表现。
展望未来
随着大语言模型小型化的快速发展,我们相信未来将有更多有趣的多模态AI应用从云端迁移到边缘侧设备和端侧设备。我们将紧跟行业最新动态,不断探索和创新,为开发者们提供更多优质的技术支持和服务。欢迎大家持续关注我们的进展,共同见证人工智能的美好未来!