斯坦福 CS336 这门课,之前最值得看的是课程资源本身:公开语言模型从零实现,不是让学生围着 API prompt 转,而是把 tokenizer、Transformer、优化器、训练循环、性能分析这些东西拆开重做一遍。
现在作业仓库里又多了一份 CLAUDE.md。文件名看着像给 Claude Code、Cursor、Copilot、ChatGPT 这类工具看的提示词,内容却很克制:AI 是 Teaching Assistant,不是 Solution Generator。
这句话把 CS336 的真实门槛补齐了。
公开课程资源告诉你学什么;这份准则告诉你,哪些过程不能外包给 AI。前者是知识路线,后者是学习秩序。
发生了什么:斯坦福给 AI 助手划了一条硬线
CS336 是一门实现密集型大模型课程。学生要写大量 Python/PyTorch 代码,脚手架有限,目标不是“看懂答案”,而是把模型训练链路亲手搭起来。
这份 AI Agent Guidelines 没有全面禁止 AI。它允许 AI 做这些事:
- 解释课程概念;
- 帮学生理解 Python、PyTorch、CUDA、Triton 报错;
- 审阅学生已经写出的代码;
- 建议测试、断言、toy example、profiling 方法;
- 引导学生查课程材料和官方文档。
但它明确禁止 AI 做另一类事:
- 直接给作业解法;
- 写 Python 代码或伪代码;
- 补 TODO;
- 编辑学生仓库;
- 运行 bash 命令;
- 实现 tokenizer、training loop、Triton kernel、分布式训练逻辑等核心组件;
- 指向第三方完整实现让学生照抄。
最关键的不是“能不能用 AI”,而是 AI 替代了哪一段学习。
学生问 causal mask 不对,AI 可以让他检查 softmax 前后、broadcast shape、masked value、toy input。AI 不能说:你第 42 行错了,我替你改好。
前者训练判断力。后者训练复制粘贴。
为什么重要:大模型课的门槛正在换地方
过去很多人学 AI,路线很短:会调接口,会写 prompt,会拼工作流,就算入门。
这条路线当然有用。做产品原型、做业务自动化、做轻量工具,API 能解决很多问题。但 CS336 这种课指向的是另一层能力:你要知道模型为什么能训起来,也要知道它为什么训不起来。
这正是课程资源的价值。它把大模型学习从“调用智能”拉回“建造系统”。
大模型训练链路里,真正折磨人的不是概念名词,而是那些笨问题:
- 维度对不上;
- loss 不降;
- mask 广播错了;
- optimizer 行为和预期不同;
- GPU 利用率低;
- distributed training 卡在通信;
- Triton kernel 性能不如想象。
这些问题看着低级,却最长肌肉。
AI 如果把这段全拿走,学生会得到一份能跑的作业,也会失去理解系统的机会。结果很讽刺:模型看着更强,产品反而更虚;工具越来越聪明,人却越来越不会判断工具错在哪里。
这份准则补强的正是这一点:CS336 的主线不是“免费放课件”,而是把学习目标压到训练链路本身。会用 AI,不等于会做 AI。
谁受影响:最先被逼着改的不是学生,是课程设计
受影响最大的有两类人。
一类是想系统学大模型的学生和工程师。CS336 给出的信号很直白:如果你只想快速调模型、套框架、跑 demo,这门课的收益会打折;如果你愿意被 tokenizer、Transformer block、optimizer、training loop 折磨一遍,它的价值才会出来。
另一类是教编程、教机器学习的人。
很多课程面对 AI 有两种懒办法:假装 AI 不存在,继续布置容易被生成器秒掉的作业;或者写一句“禁止使用 AI”,把问题推给学术诚信。
两种都不够。
CS336 的做法更现实:承认 AI 已经在学习现场,然后把它限制在助教位置。它甚至规定了提问方式:先问学生试过什么、预期是什么、实际发生了什么,再建议 invariants、shape assertion、toy input、profiler 检查。
这不是道德宣言,是可执行边界。
“请合理使用 AI”这种话太软,落地时全靠自觉。自觉在评分压力面前不值钱。天下熙熙,皆为利来;课堂里也一样,学生会优化自己被评价的指标。
如果评分只看最终代码能不能跑,AI 就会变成外包。如果课程要求调试记录、测试设计、profiling 分析、口头解释,AI 才更可能回到辅导工具的位置。
问题不在产品,而在激励设计。
我更在意的是:AI 进入课堂后,学习过程不能被偷换
我不太买账“名校开始围堵 AI”这种说法。CS336 这份文件更像一次课程设计上的止损。
它没有把 AI 当敌人。它把 AI 当一种已经失控扩散的基础工具,然后问一个很具体的问题:哪些环节可以省力,哪些环节不能省?
这和计算器进课堂有点像,但不完全一样。
学校后来没有禁止计算器,而是区分什么时候考算术,什么时候考建模。AI 的麻烦更大,因为它不只替你算,还会替你组织思路、写代码、解释错误、生成下一步。它省掉的不是一小段劳动,而可能是整条认知路径。
古人说“纸上得来终觉浅”。放到今天,就是屏上生成也终觉浅。
尤其是大模型工程。你没有亲手踩过 shape、mask、loss、通信、显存这些坑,以后面对 AI 生成的训练代码,很难判断它是对的、凑巧能跑的,还是埋了一个三天后才炸的雷。
这也是为什么 CS336 的方向比很多“AI 速成课”更值得看。它没有把大模型教育包装成玄学,也没有把学习简化成调用工具。它说得很朴素:你得自己写。你得自己调。你得知道哪里错了。
这话不性感,但对。
接下来该看什么:准则能不能进入评分系统
目前能看到的,还只是一份作业仓库里的 agent guidelines。它不是斯坦福全校政策,也没有公开效果数据。不能把它神化。
真正要观察的是三件事:
- 作业评分是否会看过程证据,而不只看最终代码;
- 助教是否会按同一把尺子处理 AI 使用边界;
- 课程是否会增加口头解释、调试记录、profiling 报告这类反代写设计。
如果这些跟不上,准则就容易变成墙上的规矩。学生照样可以把题目喂给模型,只是换一种更隐蔽的问法。
但方向已经很清楚。
AI 时代的 CS 教育,不能再只问“有没有用 AI”。这个问题太粗。更好的问题是:AI 是帮你看清问题,还是替你绕过问题?
CS336 的答案偏硬:解释可以,代写不行;提示可以,接管不行;工具可以进课堂,但不能把课堂掏空。
这也让那门公开课的意义更完整了。大模型门槛确实正在从调 API 转向搭训练链路;现在还要再补一句,搭训练链路这件事,不能让 AI 全替你搭。
