Codex 进 ChatGPT 后，真正的战场不是手机，而是长期工作流

核心摘要 Summary

Codex 接入 ChatGPT 手机端，表面看是 OpenAI 把编程助手塞进更大的入口；Jason Liu 的长期使用实践则把另一层意思挑明了：Codex 正在从聊天式代码工具，靠近一个能记事、等反馈、跑流程的个人工作系统。
真正的分水岭不在模型会不会写更多代码，而在它能不能接住 Slack、邮件、浏览器、文档、测试和人工审批这些脏活。

Codex 进 ChatGPT 手机端时，最容易被看见的是入口：OpenAI 把开发者工具放进了更大的消费级界面，手机也能调起。这个判断没错，但偏窄。

更关键的变化，现在有了一个更具体的样本。Jason Liu 在长文里写了自己使用新版 Codex App 的方式：每个重要工作流一个置顶巨型线程，用 compaction 压缩长期上下文，再接上语音输入、Obsidian 记忆库、浏览器和电脑控制、Slack/Gmail/Calendar 连接器，以及 Heartbeats 和 Goals。

这不是官方发布稿，也不是功能清单。它补上的信息很重要：Codex 的目标感已经不只在“帮你写代码”，而是在尝试接管一段持续发生的知识工作。

发生了什么，可以压成三句话：

Codex 从短对话，开始转向长期线程。
代码、文档、网页、Slack、邮件、PR、桌面应用，被拖进同一个闭环。
代理能做多少，不取决于愿望，而取决于记忆、权限、验收和人工闸门。

谁最受影响？不是普通聊天用户。最先被改变的是 AI 工具重度用户、技术团队负责人，以及每天在 GitHub、Slack、Gmail、Docs、Calendar 之间来回切换的人。

手机入口只是外壳，长期线程才是变化

旧问题是：Codex 进 ChatGPT，是不是 OpenAI 在抢手机入口？

现在看，入口只是外壳。真正的产品单位正在变。

Liu 的做法是为不同工作流保留 pinned megathread，比如 Chief of Staff、OpenAI CLI、Agents SDK、开源项目、Twitter 监控。线程不是一次性问答，而是持续积累偏好、历史决策和未完成事项。

这一步很小，也很要命。

过去的 AI 助手像临时工。你每次开口，都要把背景重讲一遍。长期线程把它变成“知道前情的人”。它未必更聪明，但少问废话，能续上昨天的活。

这里的新增变量是 compaction。长期上下文会被压缩，减少重复交代，但也带来两个现实代价：长线程不一定一直在缓存里，重新访问可能更贵；压缩会丢细节，丢掉的往往是人类以为“不用说也懂”的部分。

AI 产品最怕这种缝隙。表面是记忆，实际可能是带着错觉的记忆。

记忆落到文件，代理才有账可查

Liu 没有把长期记忆全押在聊天历史里。他把 Obsidian vault 放到 GitHub，目录里有 TODO、people、projects、agent、notes，并用 AGENTS.md 要求 Codex 在项目推进、人员偏好、待办关闭后更新页面。

这比“聊天记得我”靠谱得多。

文件可检查，可 diff，可迁移。代理写下某人偏好什么、项目卡在哪里、哪个决策已经完成，用户可以审阅变更，而不是任由一个黑箱线程慢慢堆出一套无法核验的个人档案。

这也是 Codex 与普通聊天助手拉开距离的地方。聊天记录像脑内印象，文件系统像账本。企业要的是账本。

“天下熙熙，皆为利来。”放在这里不是说用户贪便宜，而是说组织采购永远看收益和责任怎么分。能省人力，老板会动心；出了错没人能审，法务和安全团队就会踩刹车。

Codex 如果想进团队流程，就不能只会回答。它必须留下痕迹。

Heartbeats 把代理从回答者推向盯事的人

Heartbeats 是这套用法里最像“代理”的部分。

线程可以每 30 分钟检查 Slack 和 Gmail，研究问题并起草回复；也可以定期看 PR、Google Docs 评论或 Slack 反馈，等反馈出现后继续改稿、重渲染、回帖。

这件事比“AI 自动写邮件”更深。它让代理开始等待外部世界。

很多工作不是一次性生成，而是等人、等评论、等 CI、等审批、等客户回话。传统聊天机器人卡在“你问我答”。Heartbeats 往前跨了一步：没人问，它也能盯着状态变化。

但 Liu 保留了人工审批，不让代理直接替他发送关键回复。这个细节不能轻轻带过。

因为真正的办公流不缺自动化，缺的是可控自动化。Slack、Gmail、Calendar、GitHub、浏览器、桌面权限一旦打通，代理就不只是帮手，也是潜在事故源。它可以省掉十分钟，也可以把一封不该发的邮件发给不该看的人。

所以问题不在产品演示漂不漂亮，而在权限和刹车怎么设计。

和 Copilot、Computer Use 的差别：Codex 想吃掉中间地带

GitHub Copilot 更偏 IDE 内编码。Anthropic 的 Computer Use 更强调电脑操作能力。Liu 展示的 Codex 用法，位置更暧昧：它把代码、文档、浏览器和协作工具混在一起。

这块中间地带很肥，也很难。

程序员一天里真正花在“写函数”的时间没想象中多。更多时候是在读需求、查 Slack、回 PR、改文档、看报错、等测试、解释为什么这件事不能这么做。Codex 如果只会补全代码，那是在吃工具链的一小块；如果能接住这些碎片，它吃的是知识工作的周转时间。

Brockman 接手产品战略后，Codex 进 ChatGPT 的意义也要放回这个框架看。不是给手机用户多一个按钮，而是把 OpenAI 的代理能力放进更高频、更通用的界面里测试。手机只是入口之一，长期线程和跨应用连接才是骨架。

我更在意的不是 Codex 能不能多写几行代码，而是它能不能把“做完一件事”的边界定义清楚。

Goals 给了一个方向：任务必须有可验证终点。Liu 举的例子是把 Python Rich 库迁移到 Rust，目标不是“按 Markdown 计划实现”，而是“通过原项目测试套件”。

这句话很实在。能不能交给代理，不看任务描述有多宏大，看验收标准有多硬。

企业采购前，先问四个脏问题

团队要不要试 Codex？可以试。但别被“个人工作操作系统”这种说法冲昏头。

采购前先问四件事：

Slack、Gmail、Calendar、GitHub、浏览器权限，谁批准，谁撤销？
长期记忆存在本地文件、Obsidian、GitHub 或线程里，谁能审计，谁能删除？
prompt injection、误点击、误发信、越权读取，出了事算谁的？
Heartbeats 周期运行带来的成本、频率、审批点，能不能被统一管理？

Chronicle 这类利用屏幕上下文生成记忆的能力仍是 opt-in research preview，相关文档也提示了权限、速率限制和本地记忆文件安全问题。换句话说，高手可以玩，组织不能照抄。

这就是我对 Codex 这轮变化的判断：它做对了方向，但代价还没结算完。

OpenAI 如果只把 Codex 当编程助手卖，故事不够大；如果把它推成个人工作系统，就必须面对权限、审计、成本和责任。这些东西不酷，但决定产品能不能从少数高手的桌面，走进团队的日常流程。

历史上每一种生产力工具进入办公室，都会经历同一关。电话、传真、邮件、企业 IM、云文档，开始都像效率神器，后来都变成治理问题。技术负责提速，组织负责收拾提速后的混乱。

Codex 也逃不开。

开头那个问题可以收回来了：Codex 进 ChatGPT，不只是手机入口之争。Jason Liu 的实践把更深一层露出来了——OpenAI 真正在试的，是让代理从“会回答”变成“能盯事”。

能盯事，才会碰到真实工作。碰到真实工作，就会碰到真实责任。

Codex 进 ChatGPT 后，真正的战场不是手机，而是长期工作流

Codex 转向

入口降级

长期线程

压缩记忆

记忆落账

Obsidian

企业需求

代理盯事

跨应用闭环

人工闸门

战场变化

中间地带

硬验收

企业门槛

权限审计

责任风险

手机入口只是外壳，长期线程才是变化

记忆落到文件，代理才有账可查

Heartbeats 把代理从回答者推向盯事的人

和 Copilot、Computer Use 的差别：Codex 想吃掉中间地带

企业采购前，先问四个脏问题