斯坦福 CS336《Language Modeling from Scratch》近日公开了课程页面、讲义和 5 个作业代码仓库。
这门课有个反常点:它不急着讲大模型能做什么,而是要求学生从数据清洗、Tokenizer、Transformer、优化器、训练、评估、扩展律,到后训练与对齐,自己把语言模型链路搭一遍。
所以别把它看成“斯坦福又开了一门大模型课”。更准确的判断是:CS336 把语言模型当成工程系统来拆。它真正戳中的,是当代 AI 人才门槛正在变化。
会用模型,已经不稀缺。能把训练链路跑通,才开始变得稀缺。
CS336 教的不是概念,而是一条训练流水线
课程设计很直接:少脚手架,多实现。
页面明确提到,学生要写的代码量远高于多数 AI 课程。先修要求也不低:熟练 Python、PyTorch、深度学习、系统优化、线性代数、概率统计和机器学习。
这不是零基础友好课。它更像给已经懂机器学习的人补一门“硬仗课”。
5 个作业都有对应 GitHub 仓库。但这不等于斯坦福开源了一个工业级训练框架。更合适的理解是:这些仓库是教学用拆机图,逼学生把关键部件自己装上去。
| 作业 | 主题 | 核心任务 |
|---|---|---|
| Assignment 1 | Basics | 实现 tokenizer、Transformer 架构、优化器,并训练最小模型 |
| Assignment 2 | Systems | 用 profiling/benchmark 优化模型,用 Triton 实现 FlashAttention2,并做分布式训练 |
| Assignment 3 | Scaling | 理解 Transformer 组件,用训练 API 拟合 scaling law |
| Assignment 4 | Data | 把 Common Crawl 原始数据转成预训练语料,做过滤和去重 |
| Assignment 5 | Alignment/RL | 用 SFT 和强化学习训练模型解数学题,包含安全对齐 DPO 可选内容 |
这张表能说明一件事:大模型训练不是写一个 model.py 就结束。
数据质量会影响模型学到什么。算子效率会影响钱烧得多快。扩展律会影响预算怎么分。后训练和对齐会影响模型能不能按人类想要的方式输出。
把这些环节串起来,才是语言模型训练的真实样子。
难点不在背 Transformer,而在 GPU、数据和系统
CS336 的难,主要不来自公式。它难在工程密度。
课程覆盖 FLOPs、显存、arithmetic intensity、GPU/TPU、Triton kernel、并行、推理、评估、数据混合、SFT/RLHF 和 RLVR。这些词看起来像清单,但对应的是模型团队每天会碰到的问题。
为什么 Attention 会卡显存?为什么去重会影响困惑度?为什么 scaling law 能指导训练预算?为什么同样的模型结构,系统实现差一点,成本就可能差很多?
这些问题,靠 API 文档回答不了。
和 Hugging Face 教程、fast.ai 这类偏上手和应用的课程相比,CS336 的位置更靠近“训练基础设施入门”。它不鼓励学生只调用现成库做 demo,而是让学生面对底层链路里的脏活。
这里也有现实限制。自学者可以跟课,但成本不是零。
课程页面列出云 GPU 选项,并注明 2026 年 3 月 28 日单张 B200 公开价格大致在每小时 4.99 到 7.49 美元之间。Modal 是课程算力赞助方,不代表所有自学者都能免费拿到 GPU。
| 学习方式 | 现实约束 | 更合适的做法 |
|---|---|---|
| 只想了解大模型概念 | CS336 代码量和系统要求偏高 | 先学深度学习、PyTorch 和基础 Transformer |
| 想补训练链路 | GPU 成本、调试时间、系统知识都会卡人 | 先在 CPU 上验证正确性,再按作业需求上 GPU |
| 想进模型训练团队 | 只会 API 和 RAG 不够 | 把作业当成能力体检,补数据、系统、训练稳定性 |
我不太买账的是那种“公开了课程,所以人人都能从零训练大模型”的说法。
课程公开,降低的是学习路径的不确定性。它没有消除编程、数学、系统和算力门槛。知易行难,这句话放在训练链路上很合适。
对工程师和研究生:简历关键词会变薄,作品要变硬
这门课最直接影响两类人:AI/ML 工程师,以及准备进入模型方向的研究生。
对工程师来说,如果过去的项目主要是 OpenAI API、LangChain、RAG 和业务集成,下一步不一定是再堆一个应用 demo。更有价值的动作,是补一段训练侧作品:读 profiler、改 kernel、做数据过滤、跑小规模训练、写清楚 loss 和评估变化。
对研究生来说,CS336 更像一份能力清单。Python 工程、PyTorch 熟练度、GPU 内存模型、数据清洗、分布式训练,缺一块都会在作业里暴露出来。
| 对象 | 现在该调整什么 | 不必误解成什么 |
|---|---|---|
| AI/ML 工程师 | 少堆 API demo,多补训练、数据和系统优化项目 | 不等于每个人都要从零训大模型 |
| 模型方向研究生 | 用作业检查短板,尤其是 PyTorch、GPU、数据处理 | 不等于刷完课程就具备工业级训练经验 |
| 技术自学者 | 先评估基础和算力预算,分阶段完成作业 | 不等于课程公开就没有成本 |
企业招聘也会被这种课程慢慢改变。
过去两年,“会调用模型”可以作为入门能力。现在更关键的问题变成:你能不能判断训练为什么不收敛,能不能读懂 profiler,能不能把数据管线和分布式训练调到可用。
这不是说应用层能力没价值。RAG、Agent、业务集成仍然有需求。但如果目标是进入模型团队,或者做更底层的 AI infra,只停在 API 层会越来越吃亏。
接下来真正该看两个变量。
一是类似课程会不会进入更多研究生项目的核心训练。二是企业面试和实习筛选,会不会更频繁要求候选人解释训练链路,而不是只展示调用模型的产品截图。
如果这两件事发生,CS336 的意义就不只是课程资源公开。它会变成一个更清楚的分界线:大模型教育正在从“理解概念”,转向“亲手构建”。
回到开头那条链路。数据、Tokenizer、Transformer、训练系统、扩展律、后训练、对齐,每一环都不光鲜,但每一环都决定模型能不能真正跑起来。
热闹在应用层,门槛在训练链路里。
