利用GPU加速在Orange Pi 5上跑LLMs：人工智能爱好者High翻了！

2024-01-22

本期视频将会给人工智能爱好者们带来超级震撼！
视频中，我们将深入了解利用GPU加速在Orange Pi5上跑LLMs的精彩世界。最近知乎上的一篇文章《利用GPU加速，在Orange Pi上跑LLMs》引起了我们的注意，这篇文章主要展示了GPU加速的LLM在嵌入式设备上以合适的速度顺利运行。具体来说，是在Orange Pi 5上，作者通过机器学习编译技术，实现了Llama2-7b以2.5 toks/sec的速度运行，RedPajama-3b以5 toks/sec运行。此外，还在16GB版本的Orange Pi 5上以1.5 tok/sec的速度运行Llama-2 13b模型。
下面我们看看他们是如何做到的>
背景
开放语言模型的进步已经催生了跨问题回答、翻译和创意任务的创新。虽然当前的解决方案需要高端的桌面GPU甚至服务器级别的GPU来实现满意的性能。但为了使LLM日常使用，我们想了解我们如何在廉价的嵌入式设备上部署它们。
许多嵌入式设备配备了移动GPU可以用来加速LLM的运行速度。在这篇文章中，我们选择了Orange Pi 5，这是一个基于RK3588的开发板，与Raspberry Pi相似，但也配备了更强大的Mali-G610 GPU。这篇文章总结了我们首次尝试利用机器学习编译，并为该设备提供了开箱即用的GPU加速。
面向Mali GPU的机器学习编译
机器学习编译是一种新兴技术，它自动编译和优化机器学习工作负载，并将编译后的工作负载部署到广泛的后端。在写作时，基于Apache TVM Unity，MLC支持的平台包括浏览器、NVIDIA GPU、AMD GPU、Intel GPU、iOS和MacBooks、Android以及Mali GPU。
MLC是建立在Apache TVM Unity之上的，这是一个用于在不同硬件和后端上编译机器学习模型的通用软件栈。为了将LLM编译到Mali GPU上，我们复用了所有现有的编译流程，没有进行任何代码优化。更具体地说，我们成功地部署了Llama-2和RedPajama模型，采取了以下步骤>
·复用了模型优化步骤，包括量化、融合、布局优化等；,·复用了在TVM TensorIR中的定义的通用GPU内核优化空间，并将其重新运用在到Mali GPU；,·复用了基于TVM的OpenCL代码生成后端，并将其重新运用在到Mali GPU；,·复用了现有的用户界面，包括Python API、CLI和REST API。
本节提供了一个分步运行指南，以便您可以在自己的Orange Pi设备上尝试它。这里我们使用RedPajama-INCITE-Chat-3B-v1-q4f16_1作为运行示例。您可以用Llama-2-7b-chat-hf-q4f16_1或Llama-2-13b-chat-hf-q4f16_1来替换它。
请首先按照这里的指示，为RK3588板设置OpenCL驱动程序。然后从源代码克隆MLC-LLM，并下载权重和预构建的库。
# clone mlc-llm from GitHub
git clone --recursive https://github.com/mlc-ai/mlc-llm.git && cd mlc-llm,# Download prebuilt weights and libs
git lfs install,mkdir -p dist/prebuilt && cd dist/prebuilt,git clone https://github.com/mlc-ai/binary-mlc-llm-libs.git lib,git clonehttps://huggingface.co/mlc-ai/mlc-chat-RedPajama-INCITE-Chat-3B-v1-q4f16_1
cd ../../..,从源代码编译mlc_llm_cli,cd mlc-llm/,# create build directory
mkdir -p build && cd build,# generate build configuration
python3 ../cmake/gen_cmake_config.py,# build `mlc_chat_cli`
cmake .. && cmake --build . --parallel $ && cd ..,验证是否编译成功,# expected to see `mlc_chat_cli`, `libmlc_llm.so` and `libtvm_runtime.so`
ls -l ./build/,# expected to see help message
./build/mlc_chat_cli --help,使用mlc_llm_cli运行LLM,./build/mlc_chat_cli --local-id RedPajama-INCITE-Chat-3B-v1-q4f16_1 –device mali,CLI运行截图,编译TVM runtime,# clone from GitHub
git clone --recursive https://github.com/mlc-ai/relax.git tvm_unity && cd tvm_unity/,# create build directory
mkdir -p build && cd build,# generate build configuration
cp ../cmake/config.cmake . && echo "set\nset" >> config.cmake,# build `mlc_chat_cli`
cmake .. && cmake --build . --target runtime --parallel $ && cd ../..,设置PYTHONPATH,export TVM_HOME=$/tvm_unity,export MLC_LLM_HOME=$/mlc-llm,export PYTHONPATH=$TVM_HOME/python:$MLC_LLM_HOME/python:${PYTHONPATH},运行下列Python脚本,from mlc_chat import ChatModule,from mlc_chat.callback import StreamToStdout,cm = ChatModule,# Generate a response for a given prompt
output = cm.generate,),# Print prefill and decode performance statistics
print}\n"),评论区Hihg翻了！
这篇文章同时发表 Hacker News。在人工智能评论区，大家的讨论热闹非凡，令人目不暇接。他们热烈地讨论Orange Pi 5的硬件选项和可扩展性，感叹如此强大的模型，如此实惠的价格，将改变游戏规则，认为这一突破将为预算有限的人工智能爱好者带来了新的可能性。
“这一功能强大的工具使得在Orange Pi 5等设备上充分发挥人工智能的潜力变得前所未有的简单。对于开发者和业余爱好者来说，这都是一个改变游戏规则的工具。”,“通过 GPU加速语言模型编译，Orange Pi 5已被证明是一款经济实惠的人工智能利器。这款设备拥有令人惊叹的速度，能以极低的成本运行高性能模型，正在彻底改变人工智能领域。”,我们欣喜地可以看到，Orange Pi 5正在以其强大的人工智能能力让越来越多的人工智能爱好者加入到创新、创意的世界，不断进行新的实践和探索。

文章推荐

利用GPU加速在Orange Pi 5上跑LLMs：人工智能爱好者High翻了！

相关推荐

伟测集成电路芯片测试基地竣工，晶圆级与成品测试项目全面启动。

俄罗斯光刻机突破，350nm技术成功实现，引领科技新篇章。

中国团队突破，全可编程拓扑光子芯片研制成功，引领科技新潮流。

上海新政力推人工智能、算力芯片，科技新风向，不容错过！

美国拟限AI大模型出口，全球科技格局生变，速览最新动态！

博世2024传感器新品：SCS智能互联与两大创新系列，引领行业变革。

OpenAI发布AI图片检测工具，准确率98%，并研发AI音频水印，引领新潮流。

AI医院小镇登陆清华，AI医生超人类，数天诊治万人，快来体验未来医疗！

谷歌AlphaFold 3预测生命分子，登Nature，免费开放，加速科研亿年！

OpenAI掌门人谈AI：末日说夸张，对技术革命持乐观审慎态度。

推荐

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

一文带你搞懂开关电源电路

基于脱硝系统改造的自动化优化分析

阿诗特能源L1000液冷新品震撼上市，卓越性能，引领未来！

博世与芯驰科技全面深化战略合作围绕车用半导体核心技术

PLL锁相环：工作原理简述，高效同步控制的核心技术。

中科曙光助力北京航天总医院打造24小时在线的AI医疗助手

国产替代奋进高端，创新引领，开启替代新篇章。

模拟芯片与数字芯片各有独特优势，各具魅力，吸引你的目光。

本征半导体，基础材料之选，了解它，掌握电子世界的关键！

最近更新

S参数与插入损耗和回波损耗

基于SiWG917Y的无电池Wi 6传感器

NVIDIA推出AI医疗健康机器人开发平台

施耐德电气发布数据中心高密度AI集群部署解决方案

航裕电源亮相2025慕尼黑上海电子展

RECOM RACPRO1系列荣获2025年红点产品设计奖

广汽昊铂首家直营交付中心开业

季丰成都实验室开启芯片微加工新篇章

航裕电源亮相2025俄罗斯国际电子元器件展

施耐德电气新型电力系统创新中心正式启用

利用GPU加速在Orange Pi 5上跑LLMs：人工智能爱好者High翻了！

相关推荐

推荐

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

一文带你搞懂开关电源电路

基于脱硝系统改造的自动化优化分析

阿诗特能源L1000液冷新品震撼上市，卓越性能，引领未来！

博世与芯驰科技全面深化战略合作 围绕车用半导体核心技术

PLL锁相环：工作原理简述，高效同步控制的核心技术。

中科曙光助力北京航天总医院打造24小时在线的AI医疗助手

国产替代奋进高端，创新引领，开启替代新篇章。

模拟芯片与数字芯片各有独特优势，各具魅力，吸引你的目光。

本征半导体，基础材料之选，了解它，掌握电子世界的关键！

最近更新

S参数与插入损耗和回波损耗

基于SiWG917Y的无电池Wi 6传感器

NVIDIA推出AI医疗健康机器人开发平台

施耐德电气发布数据中心高密度AI集群部署解决方案

航裕电源亮相2025慕尼黑上海电子展

RECOM RACPRO1系列荣获2025年红点产品设计奖

广汽昊铂首家直营交付中心开业

季丰成都实验室开启芯片微加工新篇章

航裕电源亮相2025俄罗斯国际电子元器件展

施耐德电气新型电力系统创新中心正式启用

博世与芯驰科技全面深化战略合作围绕车用半导体核心技术