一名开发者最近做了个很直观的测试:把一个想了多年的牧羊犬小游戏,交给 Anthropic 新发布的模型,一次性生成。

结果不是几行玩具代码。模型推理和生成约 45 分钟,最后给出一个单文件网页游戏:2319 行、零依赖的 index.html。token 成本超过 20 欧元。

作者说,成品好玩,也符合自己的原始设想。他还放出了试玩链接和视频,并在 GitHub 上保留了早期模型的失败或尝试记录。

这事有意思的地方,不是“AI 会写小游戏”这件老新闻。真正的变化在于:它把一个不在经典题库里的个人想法,直接推到了可试玩状态。

但也要收住。这个案例目前只能说明,强模型在长推理、高成本、目标清楚的条件下,已经能跨过一部分原型开发门槛。它不能证明 AI 已经能稳定替代游戏开发。

这次成功,成功在闭环

让 AI 写贪吃蛇、俄罗斯方块、平台跳跃 demo,已经不新鲜。很多模型都能做出一个能跑的版本。

这次的区别在于,任务不是复刻经典样例,而是实现一个具体创意:牧羊犬驱赶羊群,有互动规则,有手感判断,还要能直接打开试玩。

对开发者来说,这更接近“把脑子里的原型掏出来”。不是让模型背一道常见编程题。

事实项这次案例应该怎么读
生成耗时约 45 分钟不是秒级补全,而是一次长推理任务
成本token 费用超过 20 欧元个人实验能接受,高频使用会肉疼
交付物2319 行、零依赖 index.html易于试玩和分享,但工程复杂度有限
验证材料有试玩链接、视频和早期尝试记录比单张截图可信,但仍是单点案例

这里还要把一个标签放回原位。作者用了“世界最危险 AI”这样的说法,更多是沿着新模型发布后的争议语境在表达。

不能把这句话当成独立验证过的安全结论。本文能讨论的,是它在这次编码任务里的表现,而不是给模型安全性盖章。

和早期模型比,差别是少返工

从作者保留的早期尝试看,旧模型不是完全写不出游戏。问题常出在最后一公里。

规则能跑,但不好玩。画面有了,但互动不稳。代码能解释,成品不像最初想象的东西。

这正是很多 AI 编程体验里最消耗人的部分。第一版很快,修到能用很慢。

这次案例更像是在说明:返工次数可能被压低了。模型不只是生成代码片段,而是在一次任务里处理了规则、交互、呈现和交付。

受影响最大的是两类人。

独立开发者可以把它当成高价快速打样工具。一个想法过去可能要挤出一个周末写 demo,现在有机会用几十分钟和二十多欧元换一个可试玩版本。

小团队也会调整验证方式。不是立刻迁移全部开发流程,而是把“要不要做”这一步提前交给模型试水。先看手感,再决定要不要投入人力。

这会改变的不是正式开发,而是立项前的筛选。很多想法以前死在“懒得做第一版”,现在会死在“试玩后确实不好玩”。这反而更健康。

成本和复现性,是硬边界

最容易误读的说法是:AI 已经能一次开发游戏。

这个结论太大。眼前这个成果是单文件网页游戏,没有后端、账号系统、多人同步、素材管线、性能适配和版本维护。它也没有经历商业发布前的测试流程。

也就是说,它更像原型,不像产品。

还有一个问题更现实:能不能复现。

一次成功不等于稳定能力。提示词质量、模型当日状态、上下文长度、推理预算、开发者对“好玩”的容忍度,都会影响结果。

20 欧元以上的 token 成本也不是小数。对一次个人实验,它很酷;对每天要反复试几十个方案的团队,它会立刻进入预算表。

接下来最该看的不是更多炫技视频,而是三个变量:

变量要看什么过关才意味着什么
多次生成同一提示能否多次产出接近质量不是抽卡式成功
复杂项目代码结构能否维护和扩展不只是一次性 demo
成本下探普通订阅或低价模型能否接近效果才可能进入日常工具链

如果这三项过不了,开发者就该把它当作“昂贵但有用的原型按钮”。

如果这三项逐步过关,团队才有理由重新安排流程:把早期 demo、交互验证、内部概念稿更多交给模型,把人的时间留给验收、设计取舍和工程化。

这也是我更在意的地方。AI 编程的进步,不一定表现为一夜之间替代程序员。更常见的变化,是把某些原来嫌麻烦、不值得启动的工作,压到可以试一试的成本线以内。

这个牧羊犬游戏,就卡在这条线上。