作者:蓝海大脑,2023年标志着人工智能进入2.0时代,以大模型和生成式AI为技术里程碑,推动从点状创新到规模化发展转变,深度赋能企业业务流程,并驱动着产业链分化和成熟。新一代AI基础设施针对产业用户,采用“大中心+节点”模式,构建覆盖整个区域的算力网络,通过建设和运营联动推动区域经济一体化和智能化发展。Model as a Service(MaaS)成为核心,通过云服务提供高效的大模型服务,加速AI应用部署周期,降低企业应用大模型服务的成本,促进AI与各行业的深度整合。
一、AI 新基建开启“三浪变革”
2023年迎来“知识生产力变革”第一浪,以大语言模型为核心,实现知识工程的生产力变革,类似于中世纪的印刷革命。大语言模型具有超高速学习能力,可在人机协同模式下显著提高知识学习、搜索、传播速度和准确性。
第二浪则是“软件变革”,智能编程助手如商汤科技“代码小浣熊”通过覆盖软件开发生命周期,实现超过50%开发效率提升。中国程序员数量居全球第二,中文成为最佳开发语言。大语言模型还支持多软件串行、多模型协同组合,应用于AI Agent、MoE架构、综合型智能客服等领域。新一代AI原生软件应用正在普及,青少年在新兴AI软件与MaaS模型化创新思维中成长。
大语言模型智能编程助手,赋能软件开发提效降本,第三浪是“AI计算变革”,随着大语言模型规模不断扩大,AI算力需求呈指数级增长,对线性增长的区域基础设施提出挑战。在此矛盾下,AI算力基础设施正迎来技术工程创新,以不断降低成本、提高效率。这使得AI成为赋能千行百业的通用型基础设施,同时“百模大战”演变为AI产业专业化分工。根据AI Now的报告,大模型算力需求每1-2个月翻一番,呈现出超越传统架构的指数级增长。由于“AI超级需求曲线”领先传统架构的AI算力供给,产生短期市场现象,如AI芯片产能瓶颈和价格上涨。未来,通过大规模智能基建资源的投入和技术创新,预计在未来3年解决大模型训练成本、GPU供应、通讯瓶颈等核心挑战,从而降低AI计算整体成本,释放全民生成智能应用的创新潜力。
大模型算力的成本压力,二、大模型、生成式 AI 推动 AI 2.0 时代到来
AI 2.0时代以生成式AI为主导,不再局限于以往模式检测和规则遵循,而是通过大模型训练实现类似人类创造过程,从而实现从“分类器”向“生成器”的本质性变化。预测显示,到2027年,生成式AI将占全球人工智能支出的42%,达到1800亿美元,复合增长率高达169.7%。大模型作为生成式AI发展基础,中国市场已发布超过300个大模型。企业对生成式AI的颠覆性潜力认可度提高,Gartner预测到2026年,超过80%的企业将使用生成式AI的API或模型,或在生产环境中部署支持生成式AI应用,相较于2023年初的不到5%比例有显著提升。生成式AI正在由热议走向实际应用,其潜在的价值创造力巨大。据麦肯锡预测,生成式AI有望为全球经济创造约7万亿美元的价值,提高AI的总体经济效益约50%,其中中国预计贡献约2万亿美元,接近全球总量的1/3。
生成式 AI 驱动 AI 市场规模化发展,并带来全新经济效益,1、生成式 AI 推进产业规模化,AI 无处不在愿景加速实现
生成式AI迅速增长,企业从以往的点状、创新应用逐步过渡到在业务流程各环节部署生成式AI,以提升竞争优势。据麦肯锡调研,1/3的企业表示其组织在至少一个业务职能中经常使用生成式AI应用。企业通过加强在生成式AI领域的投资来推动这一实现,企业在ICT领域投资正在调整,将更多预算投入到生成式AI领域,从中获得客观的收益。据IDC的调研,已有24%的中国企业在生成式AI上投资,69%的企业正在筛选潜在应用场景或开始测试和概念验证。预计到2026年,40%的中国企业将掌握生成式AI的使用,共同开发数字产品和服务,实现与竞争对手相比两倍的收入增长。
各地区、行业和资历级别的受访者表示,他们已经在使用生成式 AI,企业正在调整人工智能(AI)战略,以适应生成式AI的爆发式增长,使其覆盖整个公司业务流程。在AI 1.0时代,企业通常制定长远规划,采用碎片化布局。然而,AI 2.0时代的生成式AI带来日新月异的变化,企业战略强调短期目标、快速行动,并逐渐覆盖关键业务。战略的关键变化包括对用例的重新考虑,从以前的预测分析和自动化应用场景转向内容生成和创造。随着生成式AI成为不可或缺的生产力工具,培训员工负责任地使用这些工具也成为关注的焦点。
AI 2.0 时代,企业需要重新制定 AI 战略,通过拥抱生成式AI,企业实现与员工之间的协同创新。生成式AI扩大人类专业知识、创造力和知识范围,提高工作效率。最重要的是,生成式AI使得创新的可能性变得更为清晰,帮助人类在短时间内探索更多解决方案可能性,并以最小化成本撬动更多的价值。据Gartner预测,到2026年,将有超过1亿人与“机器人同事(合成虚拟同事)”协同工作。
2、产业链成熟分化,基础设施成为 AI 产业发展基座和保障
企业积极采用大模型和生成式AI推动AI应用向产业深水区快速发展。面对多样化的业务需求和标准,AI产业链正迅速成熟和分化,上下游的产业角色和环节不断增加,需要新型基础设施来更好地支持这一发展。其中的关键影响包括>
1)智能算力成为AI产业发展的核心支持要素
企业倾向于使用AI就绪的数据中心或GPU集群进行大模型训练,以缩短部署时间并降低设施的长期投资成本。智能算力适用于大模型训练,已成为推动算力增长的主要动力。根据IDC的预测,中国智能算力规模到2027年预计将达到1117.4 EFLOPS。在2022年到2027年的期间,中国的智能算力规模年复合增长率为33.9%,而同期通用算力规模的年复合增长率为16.6%。
中国智能算力规模及预测,2020-2027,基于 FP16 计算,EFLOPS,2)人工智能生产范式转向以大模型为核心的开发路径
在AI 1.0时代,AI应用开发主要通过精细而复杂的编码来表达逻辑,随着业务场景从通用发展到碎片化,这种模式变得昂贵且面临准确性挑战,制约了AI产业发展。而在AI 2.0时代,基于强化学习和基模型与人工反馈相结合,AI应用开发进入规模化阶段。通过微调基模型以适应业务逻辑,辅以提示词工程,可以更迅速、低成本、高精度地覆盖更广泛的业务场景,使AI产业迎来一个高速发展、无处不在的新时代。
AI 2.0 时代,人工智能的生产范式发生了根本性改变,3)作为新的生产力工具,生成式 AI 应用发展进入大航海时代
随着基模型的迅速成熟,生成式AI应用迎来爆发性增长。最初以ChatGPT、Midjourney等为代表的文本和图像应用迅速扩展了用户群。接着,音频生成、视频生成、多模态生成等应用以及面向不同行业和用户群体的工具类应用(如代码生成、Copilot、数字人、营销工具、聊天助手等)纷纷涌现。到2023年11月OpenAI推出GPTs并计划推出GPT Store,使用户能够无需编码,结合自身指令、外部知识和能力创建定制版本的应用。这种个性化的开发模式以及清晰的商业化计划,将生成式AI应用的主导地位从少数AI厂商扩展到大量AI开发者。
AI 2.0 时代,人工智能产业迎来更加繁荣的“大航海时代”,三、AI 2.0 时代对 AI 基础设施提出了全新要求
进入 AI 2.0 时代,传统针对移动互联时代应用、以 CPU 为中心的云计算基础设施,无法满足大模型训练、生成式 AI 应用爆发所带来的挑战,这些新的挑战对 AI 基础设施的关键环节都提出全新的要求,包括算力、算法平台、数据,以及围绕三个环节的工程系统建设。
1、传统计算基础设施无法满足大模型、生成式 AI 的新要求
大模型训练和生成式AI应用对GPU或异构计算的需求大幅增加,传统CPU算力已无法满足。这不仅对GPU集群计算效率和稳定性提出多方面要求,而且算力不再是简单的堆砌,而是需要进行复杂的系统性工程优化。同时面临庞大的投资压力,如何在保持系统稳定性和高效率之间取得平衡成为一个关键问题。
1)以GPU为核心的AI算力需求爆发性增长
以OpenAI GPT-3为例,训练一次1750亿参数的模型大约需要3640PFlops-day的算力,使用1024块A100(GPU)进行34天的训练。随着模型参数的不断增加,大模型训练需求呈持续递增的趋势。过去四年大模型参数年均复合增长约为400%,相应的AI算力需求增长超过15万倍,远超摩尔定律的增速。例如,GPT-4的参数量大约是GPT-3的500倍,需要使用约2万至3万张A100(GPU),并花费大约一个月的时间进行训练。除大模型训练,生成式AI应用的高并发推理也将进一步推高算力需求,未来可能远远超过训练阶段的算力需求。
AI 算力需求呈指数级增长,用以满足大模型开发和实践,2)高性能和高效率成为算力基础设施的关键
为更好支持大模型训练,采用多机多卡构成大集群进行分布式训练成为不可或缺的选择。然而大集群并非等同于大算力。分布式训练中,由于网络通信或数据缓存等问题,效率下降成为一个普遍挑战。特别是在千亿至万亿参数规模的大模型中,通信时间可能占比高达50%,互联不畅将影响大模型训练效率,制约算力集群的进一步扩展。因此,要求集群必须拥有高速互联的网络连接且网络基础设施需具备高度可靠性。在并行训练中,网络堵塞可能由于负载不均匀而成为系统短板,影响数十个甚至全部GPU节点的信息同步。此外,大模型训练时通常通过Checkpoint保存模型参数,以实现连续性。然而,在传统训练方式下,当模型参数数量较大时,Checkpoint写入时间会变得较长,降低GPU利用率。以GPT-3模型为例,文件系统写入速度为15GB/s时,一次Checkpoint需时2.5分钟,造成相应资源浪费。因此,支持大模型训练的算力资源,不仅需要在集群硬件层面提升,还需要结合软件层面进行优化设计。
大模型训练任务的稳定性,随着训练集群规模的扩张而递减,3)独占式、大规模、长时间训练对 GPU 集群稳定性提出更高要求
大模型训练在庞大GPU集群上需要较长时间,若单个节点发生故障,整个训练会中断,而故障的原因和位置难以迅速确定。以Meta的OPT-17B训练为例,理论上在1,000个80G A100上训练3,000亿个单词需要33天,实际训练却用90天,期间发生112次故障,主要是硬件故障,导致手动重启35次,自动重启约70次。节点故障不仅延长训练时间,也带来算力资源的浪费。因此,保证集群训练的稳定性至关重要,对集群建设提出更高的要求。这包括集群是否具备实时监测故障、断点续训、故障节点自动隔离等能力,以及在故障发生时是否能够快速定位和迅速恢复。
2、数据质量和效率决定大模型的高质量发展之路
大模型性能和价值观取决于高质量数据,但数据获取、清洗、标注等工作面临更大挑战,需要更高效的AI数据管理流程以满足大模型时代新需求。此外,大模型训练和应用可能涉及用户隐私和敏感数据,因此需要有效的数据治理手段来保障隐私和数据安全。
构建性能强大且价值对齐的大模型至关重要,而数据质量和效率是关键因素。由于不同来源的数据质量差异较大,包括重复、无效、虚假或敏感数据,这些问题会直接影响模型性能和产生的价值。为保障数据质量和价值对齐,需要对原始数据进行清洗、标注等预处理工作。传统的“作坊式”数据处理方式已无法满足大模型时代的需求,因此需要打造高效的“智能化数据处理流水线”以弥补传统方式的高成本和低效率。
随着生成式AI的使用,企业面临更为突出的用户隐私和数据安全问题。上传企业代码库或以往营销数据等操作可能涉及用户隐私和企业核心机密,若不妥善保护可能导致严重数据泄露,对用户和企业造成不可逆的损害。在大模型训练和交互过程中,如何高效进行数据治理,隔离和保护上传数据,成为亟需解决的问题。用户选择AI软件供应商时,数据安全性是至关重要的参考指标。
3、大模型需要全新的 AI 平台服务模式
大模型应用能够帮助企业更高效率的实现商业目标,但对于绝大多数企业而言,自研大模型成本高且模型设计、训练、调优等环节对开发人员专业能力要求较高。MaaS(Model as a Service大模型即服务)代表着一种全新的 AI云服务范式,其将大模型作为 AI 基础设施的核心组成,以云服务方式提供给开发人员和企业进行更高效的工业化开发。目前,包括微软、华为、百度、商汤等厂商均推出 MaaS 服务。
MaaS 平台帮助企业更好的调用大模型能力,MaaS极大地加速了AI应用开发过程,提高创新迭代速度。该平台将预训练好的大模型与开发工具、数据管理等功能封装在一起,使企业能够在不从零开始自建大模型的情况下,迅速调用AI功能,缩短了新产品、新服务、新模式上线的时间,加速创新的迭代速度,提升企业的市场竞争力。
此外,MaaS降低企业的成本投入,推动AI与各行各业的深度融合。在AI 1.0时代,小模型的应用受限且开发成本高,AI在传统行业的渗透率仅为4%。而大模型时代采用“基础大模型+微调”的方法提高了场景适用性,同时MaaS模式降低了AI开发的成本和专业门槛,促使企业更积极地推进与业务相结合的AI创新,推动AI与行业的深度融合,提高了行业AI应用的渗透率。
此服务模式还促进了大模型生态体系的建立,推动大模型应用规模化落地。MaaS主要由技术实力强、AI专家资源丰富的厂商提供,通过平台的开放性和开源社区的参与,吸引更多企业和开发者参与,形成多元化的大模型应用开发生态,以满足更广泛、更细分场景的AI需求,从而推动应用规模化的实现。
四、新一代 AI 基础设施的定义、特点和价值
AI 2.0时代需要重新构思基础设施,以更精细化的设计和重构来支持大模型的训练与推理,以及生成式AI应用的规模化落地。这一新一代AI基础设施将以大模型能力输出为核心平台,综合整合算力资源、数据服务和云服务,专注于最大程度提升大模型和生成式AI应用的性能。其关键要素包括数据准备与管理、大模型训练、推理、模型能力调用以及生成式AI应用的部署。企业可以通过利用新一代AI基础设施来开发和运行生成式AI业务和客户应用程序,同时进行基模型和行业模型的训练与微调。
新一代 AI 基础设施主要由算力、MaaS 及相关工具构成,在实际应用中,厂商会提供围绕大模型开发实践的咨询类服务,以解决用户在训练和使用大模型时面临的技术问题。算力基础设施方面,为大模型训练和推理提供全面的计算、存储等产品及服务,具有“大算力、高协同、强扩展”的基本特性。这包括由高性能异构集群组成的算力底座,具备高互联的计算网络、高性能的文件存储和大规模的AI算力资源,以及具备强大的线性扩展能力,提供弹性灵活的云原生服务。
MaaS平台层为大模型应用提供完整的服务和工具链体系,包括基础大模型库、大模型生产平台、数据管理平台、应用程序开发等。MaaS平台层可以提供预构建的基础大模型及API,一站式大模型开发工具及服务,AI原生应用开发工具,以及预构建的高质量数据集及AI数据管理服务,以满足用户在不同业务场景下的需求。这有助于降低客户使用成本,加速大模型在不同行业领域的快速落地。
1、新一代 AI 基础设施的主要特点
1)新一代 AI 基础设施不是传统云的 AI 化,两者具有明显定位和发展路径的差别。新一代 AI 基础设施主要面向产业用户,为超大模型研发训练、区域行业及应用孵化创新提供 AI 基座,并跟随产业区域落地向周边辐射,通过可持续运营带动区域经济智能化发展。
新一代 AI 基础设施面对的是不同于传统云的业务要求,智算中心以“建运一体”的方式,充分发挥基础设施效益,不仅是AI基础设施物理载体,更是集公共算力服务、数据开放共享、智能生态建设和产业创新聚集的综合服务平台。智算中心建设不仅要注重在产业生态为导向的规划下进行,还需要强调对区域产业、科研等应用场景的支撑。选择合理的建设和运营模式,并在建成后实现可持续运营,有助于帮助当地更好地消化算力资源,促进智能产业生态发展和AI人才培养。
在AI算力网络布局上,采用“大中心+节点”模式,构建跨地域互补、协同调度的超大规模AI算力网络。通过“大中心”布局低成本大规模算力集群,满足万亿参数模型训练与部署的需求;同时,在产业基础好的区域落地算力节点,以满足产业训练和推理一体的算力需求。通过节点布局与大中心的联动扩展,实现跨地域支撑训推算力协同调度。
2、新一代 AI 基础设施创造社会价值
新一代 AI 基础设施降低大模型开发和应用的门槛,在政企服务、产业和科研创新等方面创造更大的社会价值。具体来看包括三方面>
新一代 AI 基础设施赋能政务、产业和科研创新价值,1)政务智能化提升
“一模通办”为政务服务注入大模型能力。通过整合分散的政务应用,使用性能强大、底座统一的大模型,实现“一模通办”以提升地方政府治理能力。这推动了各类智能惠企和便民服务的高效实施,使企业和市民更轻松地享受城市公共服务。政务大模型在处理海量政务数据时能够迅速洞察热点事件,分析政策落地情况,为政策的制定和实施提供支持,从而提升社会治理水平。另外,统一的便民咨询窗口通过政务大模型能够准确快速地识别市民需求,提高政务服务效率。
2)产业创新激发
“大模型+MaaS”模式助力区域智能化。利用大模型激发区域产业创新,加速传统产业智能化转型。例如,在农业领域,结合遥感农业大模型实现农业技术的升级和推广。同时,AI基础设施赋能工业大模型的研发和应用,实现工业AI的规模生产。
3)科学研究赋能
“AI for Science”新范式推动科学发展。大模型技术在科学研究领域带来重大突破,如在生物计算领域的AlphaFold2覆盖98.5%的人类蛋白质组,以及全球中期天气预报大模型“风乌”首次实现在高分辨率上对核心大气变量进行超过10天的有效预报。大模型对原子运动、医学图像、天文图像等进行预测和模拟,加速科学实验的自动化和智能化,推动科学研究的新范式“AI for Science”取得更多突破。