最近,国产第一部3A游戏大作《黑神话:悟空》问世,引发了全网热潮。游戏中的主角“天命人”,重走西游之路,克服重重难关,向世界展现了中国文化的绝美与中国科技的自信。
而在现实当中,通往产业智能化的AI之路,同样可以说是一条取经之路。广大行业大模型开发者,也像“天命人”一样需要跨越重重难关,克服九九八十一难。那么,谁能来帮助他们攻克艰险,踏上灵山?
9月4日,天翼云在线上举办了息壤一体化智算服务平台大模型训推服务能力升级发布会。面向行业大模型的真实开发需求与应用场景,天翼云将2023年推出的智算服务平台进行了升级与革新,从而能够为大模型开发训练、行业模型微调提供全生命周期的工具链。
经过一年的精进,天翼云智算服务平台具有全流程覆盖、全方位支持、适配国内行业大模型AI开发需求的特性。旨在简化大模型从训练到部署整个流程的息壤一体化智算服务平台,已经可以在AI取经之路上,助力每一位行业大模型开发者“天命人”。
作为云服务国家队,天翼云所打造的息壤一体化智算服务平台训推服务能力的跃迁,正在帮助中国AI开发者踏上智能化之路,盎然西行,直面天命。
就像西天取经之路一样,大模型开发者与千行百业的AI进阶之路,需要面临重重艰险。从AI大模型训练所需的数据准备,到模型训练、推理部署,每一个环节对于行业大模型开发者来说都蕴藏着不小的挑战。我们可以拣选具有代表性的几个“AI取经难关”进行讨论:
1.数据的黑风山。
AI大模型训练需要大量高质量数据,但对于行业大模型开发者来说,AI所需的优质数据获取难度其实是非常大的。在各行各业中,数据资源呈现出极其有限,且分布非常分散的特点。在收集到一定的数据之后,开发者还需要面对数据标注、数据清洗等一系列工作,开发成本极大。除此之外,行业大模型开发者还需要与行业内的专家紧密配合,从而将专业知识与AI算法进行紧密结合。这些行业数据相关的难题,构成了一座重重险阻的“黑风山”,成为阻挡开发者踏上AI取经路的第一道难关。
2.训练的狮驼岭。
在化解数据难题之后,开发者还需要面对AI大模型训练这个关键环节,而这个环节也是综合成本开销最大,且不确定性最高的一个。
对于行业大模型开发者来说,大模型训练面临着AI算力稀缺的核心问题,而在极高的AI算力成本之下,还需要应对传统算子运行效率差、训练集群故障多、故障定位与恢复时间漫长等重重困难。极高的训练难度和训练稳定性,成为困扰大模型智能化发展的高山。
3.模型的通天河。
对于众多行业领域来说,进行独立的大模型研发并非唯一选择,如果能够基于先进、成熟的大模型再结合自身行业所需进行“定制化”开发可取得事半功倍的效果。然而在这种需求下,行业模型开发者也面临着业界优秀的模型与模型应用实践难以获取,模型的本地化水平低等问题。模型的应用部署,限制住了大模型在行业智能化的“最后一公里”。
能不能找到一个方法,连续攻克这重重难关,给予行业大模型开发者一站式的帮助?
面对这个问题,能够一站式全流程覆盖的智算服务平台成为关键的答案。天翼云对息壤一体化智算服务平台训推服务能力的升级,就是希望瞄准真实的行业大模型开发,与开发者一起踏破AI取经的九九八十一难。
西天取经需要一步步走,一关关过。对行业大模型开发的赋能,也需要了解每个环节行业大模型开发者真正面对的挑战,给出具有突破性的解决方案。
息壤一体化智算服务平台训推服务能力升级的特点,就是洞察真实的行业AI大模型开发工作的诉求,针对每个环节都给出对应的解法。我们可以将天翼云息壤一体化智算服务平台训推服务能力的演进,分为多个层面进行理解。看看天翼云如何帮助AI取经路上的“天命人”,一步步踏碎AI难关,走上阳关大道。
1.筋斗云,翻越模型天堑。
智算服务平台对行业智能化的赋能,首先需要提供完善、优质的大模型。天翼云在息壤一体化智算服务平台打造的大模型库,拥有国内领先的丰富大模型。其中包含Llama系列、Qwen系列、智谱系列、书生浦语系列等众多主流大模型,涵盖不同参数量级,供用户灵活选择。在原来29个模型的基础之上,本次新增上线重量级商业闭源大语言模型Baichuan4、主流开源大语言模型书生浦语2系列的InternLM2-Chat-7B和InternLM2-Chat-20B、图文多模态大模型Qwen-VL-Chat,以及Qwen2系列、Qwen1.5系列和Llama3系列的诸多模型。在这样的大模型阵容下,各行业可以轻松调用到符合自身需求的大模型,快速实现大模型到行业场景的孵化。
2.七十二变,化身数据万千。
在困扰行业大模型开发者的数据工作中,息壤一体化智算服务平台内置了专业的大模型数据集。中国电信在数据发展上开展的算数融合工程,首批推出超120万对文本和语义识别类通用大模型训练所必需的问答对数据,主要面向客服问答场景,解决了大量中小型企业训练数据不足的难题。
尤其需要注意的是,息壤一体化智算服务平台内置的数据集,在数据来源上经过了严格的审核,可以确保数据的准确性与真实性,并且通过多维度的数据验证,确保了数据集的完整性与一致性。行业大模型开发者可以获得高质量的数据支持,并且在该平台中直接将数据应用到训练、推理任务中。化身千万的数据集,就像齐天大圣的七十二变,可以带来堪称神奇的大模型训练效果。
3.金箍棒,打出最强训练。
面对开发者在大模型训练中的系列痛点, 天翼云在北京、上海建成两个万卡规模的公共智算中心,并在其资源池上搭载了息壤一体化智算服务平台,使其成为国内首个单集群万卡国产化全功能预训练云服务平台,可支持目前业内最大参数规模开源单体稠密模型Llama3 405B在内的大模型训练。训练测试结果显示,Llama3 405B模型集群有效计算效率MFU在国产化万卡规模情况下达到43%,达到业界领先水平。
息壤一体化智算服务平台具有全链路故障感知和恢复、全链路日志监控和断点续训等核心技术,能够实现1分钟检测、5分钟定位、1分钟内告警,本次平台升级还增加了网络I/O监控,为训练稳定性添加了保障。在断点续训方面,在Llama2-70b模型万卡规模测试场景下,在主机故障、NPU卡故障、进程退出故障、网络超时故障四大类具体场景下断点续训测试平均秒级故障检测,分钟级故障定位和自动化处理,分钟级训练恢复,其能力达到行业前沿水平。此次平台升级还新增了对芯片故障的优雅容错,能够做到无需重调度直接修复节点故障。目前,智算服务平台已经应用于大量用户的训推场景,如深圳市智算中心、人工智能实验室等。
4、火眼金睛,勘破场景应用。
面对不同行业、不同企业的多样化大模型应用场景,息壤一体化智算服务平台做了深度的洞察,就像点亮了“火眼金睛”,看到不同行业与企业对大模型的真实期待。
无论是具备深厚专业背景的行业客户,还是对大模型推训能力有严格要求的大模型厂商,都可以通过息壤一体化智算服务平台获得准确的支持,可通过直接调用预置的大模型服务,使得开发者能够轻松地将先进的AI技术集成到自己的业务中。
如今,AI取经之路上行者不绝,息壤一体化智算服务平台训推服务能力也为诸多“天命人”提供了深层次的帮助。
比如说,中医与大模型的结合,是近段时期的产业热点话题。中国中医科学院中医药信息研究所与天翼云合作,共同探索AI+中医药应用创新。在中医垂类大模型的微调、应用发布平台等环节中,天翼云提供的息壤一体化智算服务平台为中医药信息研究所提供了多样化的算法支持与模型优化工具,帮助大模型能够更好地挖掘中医药数据的潜在价值,实现中医瑰宝与AI技术的融合发展。
这些真实的大模型落地场景,证明了息壤一体化智算服务平台为行业智能化带来的有力推助。作为国家云的天翼云,正在通过智算服务踏碎AI难关,助力行业大模型开发顺利西行。
让每一位“AI天命人”都找到契合的产业助力,离不开围绕智算平台的生态建设。基于平台能力,天翼云联合伙伴上线了魔乐(Modelers.cn)开发者社区。
魔乐开发者社区真实贴合了中国的产业智能化环境,以及中国AI开发者的需求。就像《黑神话:悟空》展示的中国文化底蕴那样,天翼云承载国家云之责,不断加速构建满足AI产业发展所需的智算社区。具体而言,社区具有三大特色:
1.极致易用的工具链。
魔乐开发者社区能够提供高易用性的API,快速实现开发者和研究人员的创意,并且支持千款大模型一键式离线复现,使能开发者快速搭建开发环境,构建AI应用。
2.中文优质AI资源。
魔乐开发者社区已经拥有超过1000个大模型,构建了5大专区,能够为开发者提供通义千问、chatGLM、百川、书生系列、星辰Telechat等主流中文大模型资源。
3.国产化算力使能。
面对国产化AI算力需求的发展,魔乐开发者社区还构建了体验空间,提供限时免费的国产化算力资源,支持MindSpeed、Accelerator等加速库,应对大模型时代分布式训练的挑战,显著提升大模型训练效率。
面向着数据、训练、推理的重重AI难关,天翼云选择步步前行,关关踏破。
经过不断的精进升级,天翼云智算服务平台已经在技术能力、资源积累、生态构建等方面展露出了极高的产业化水准。伴随各个领域的行业大模型开发者对智算服务平台的深度应用,产业智能化的路途正在变得愈发顺遂,前途更加光明。
踏智能路,选国家云。随着天翼云的息壤一体化智算服务平台训推服务能力的不断升级完善,会让每一位行业大模型开发者在AI世界中,都成为自己故事中的“天命人”。