挪威国家图书馆手里有约20PB唯一数字馆藏。按3-2-1策略保存后,整体规模约60PB。现在,这批长期档案要被整理成可训练挪威语大模型的数据。
这里最容易被误读的是那2PB华为OceanStor Dorado全闪存储。它不是装下全部60PB馆藏的仓库,也不是最终训练存储。它更像一个高速处理层,放在数据清洗、去重、格式规范化和验证这些环节里。
我更在意的是这个信号:主权语言大模型的难点,已经不能只用“买多少GPU”来解释。GPU当然贵,也稀缺。但数据如果搬不动、洗不净、管不住,算力就会在后面等米下锅。
为什么是国家图书馆牵头
挪威国家图书馆牵头做这件事,并不奇怪。
它拥有全国最大的挪威语数字馆藏,也承担法定保存文化遗产的职责。馆藏数字化从2005年开始推进,内容覆盖书籍、报纸、网页、音频、视频、图片等材料。
这类数据不太可能完整躺在一家商业公司手里。很多挪威语材料沉在图书馆、报社和档案系统里。国家图书馆还与挪威报纸达成协议,可将版权内容用于大模型训练。
所以,这个项目一开始就不是单纯的模型工程。它先是一项数据工程,也是一项公共文化资产的再组织。
对政策制定者来说,这里有一个现实动作:不要先定一个模型参数目标,再回头找语料。更稳妥的顺序,是先确认哪些数据可用、哪些版权可授权、哪些材料需要排除或脱敏,再决定训练规模和评估方式。
2PB华为全闪放在流水线中间
这套系统大致可以分成三层:长期保存、内部处理、正式训练。三层目标不同,存储和计算也不同。
| 环节 | 系统与规模 | 主要作用 | 该怎么理解 |
|---|---|---|---|
| 长期保存 | 约20PB唯一数据;按3-2-1策略保存后约60PB | 保存文化遗产,支持长期留存 | 耐久、合规和成本优先,不适合高频AI读取 |
| 内部处理 | Nvidia DGX H200、384核CPU集群、2PB华为OceanStor Dorado全闪 | 清洗、去重、格式规范化、验证 | 这是高速数据流水线,不是全部馆藏仓库 |
| 正式训练 | Sigma2 Olivia超算;448块GPU、64,512个CPU核心、5.3PB Cray ClusterStor E1000 | 执行训练任务 | 算力在后端,前端数据准备会影响训练效率 |
这个表能说明一件事:2PB全闪的价值,不在“容量最大”,而在“把数据喂得动”。
长期档案系统追求耐久和低成本,常见目标是保存几十年。AI训练前的数据处理追求高吞吐、低延迟、并行I/O。两套系统的脾气不一样。
从档案到训练,中间要经历迁移、校验、OCR纠错、元数据整理、去重、格式转换和质量过滤。每一步都可能拖慢后面的GPU。
这对AI基础设施和数据平台团队有直接影响:GPU采购可以晚一点拍板,但数据盘点、I/O压测、冷热分层和流水线编排要提前做。否则买到H200,拿到超算排期,也可能被低质量语料和慢存储卡住。
我不太买账的是那种“有了主权GPU集群就有主权AI”的说法。主权AI真正难的地方,是让数据在合规边界内持续流动。治大国如烹小鲜,做本地语言模型也差不多,火候常常在细处。
真正难的是语言、评估和治理
挪威语本身也不是一个简单标签。
它有两种书面形式,多种方言,还有历史变化。一个模型会不会“挪威语”,不能只看它能否回答现代标准书面语问题。地方报纸、旧式拼写、历史材料和当代公共语境,都可能影响模型表现。
这也是主权语言模型比通用英文模型更麻烦的地方。英语模型可以借助成熟语料、评测集和商业生态快速迭代。小语种或本地语言模型,常常要自己补评估工具、治理规则和语料边界。
目前能确认的是,挪威项目仍在训练中。外界还看不到模型参数规模、训练成本、性能指标或上线时间。没有这些信息,就不该把它写成一个已经交卷的模型项目。
但它已经给出一个很清楚的观察框架:
- 挪威能否建立可复用的本国语言评测体系;
- 国家图书馆、权利方和Sigma2 Olivia超算之间的流程能否稳定运转;
- 从长期档案到AI流水线的架构,能否被其他非英语国家借鉴。
对关注主权AI的决策者来说,短期该看的不是榜单名次,而是制度接口。谁能授权数据,谁能审计数据,谁能定义评测,谁能决定模型用途。
对企业和平台团队来说,动作更具体:在做本地语言模型前,先把数据来源、版权状态、清洗规则、存储吞吐和训练入口画成一张链路图。链路里任何一段含糊,后面都会变成成本。
回到开头那2PB华为全闪。它之所以有讨论价值,不是因为“华为”两个字足够热,而是因为它站在一个容易被忽视的位置:长期档案和超算训练之间。
主权AI的硬仗,很多时候就打在这个中间地带。
