Codex 进 ChatGPT 手机端时,最容易被看见的是入口:OpenAI 把开发者工具放进了更大的消费级界面,手机也能调起。这个判断没错,但偏窄。

更关键的变化,现在有了一个更具体的样本。Jason Liu 在长文里写了自己使用新版 Codex App 的方式:每个重要工作流一个置顶巨型线程,用 compaction 压缩长期上下文,再接上语音输入、Obsidian 记忆库、浏览器和电脑控制、Slack/Gmail/Calendar 连接器,以及 Heartbeats 和 Goals。

这不是官方发布稿,也不是功能清单。它补上的信息很重要:Codex 的目标感已经不只在“帮你写代码”,而是在尝试接管一段持续发生的知识工作。

发生了什么,可以压成三句话:

  • Codex 从短对话,开始转向长期线程。
  • 代码、文档、网页、Slack、邮件、PR、桌面应用,被拖进同一个闭环。
  • 代理能做多少,不取决于愿望,而取决于记忆、权限、验收和人工闸门。

谁最受影响?不是普通聊天用户。最先被改变的是 AI 工具重度用户、技术团队负责人,以及每天在 GitHub、Slack、Gmail、Docs、Calendar 之间来回切换的人。

手机入口只是外壳,长期线程才是变化

旧问题是:Codex 进 ChatGPT,是不是 OpenAI 在抢手机入口?

现在看,入口只是外壳。真正的产品单位正在变。

Liu 的做法是为不同工作流保留 pinned megathread,比如 Chief of Staff、OpenAI CLI、Agents SDK、开源项目、Twitter 监控。线程不是一次性问答,而是持续积累偏好、历史决策和未完成事项。

这一步很小,也很要命。

过去的 AI 助手像临时工。你每次开口,都要把背景重讲一遍。长期线程把它变成“知道前情的人”。它未必更聪明,但少问废话,能续上昨天的活。

这里的新增变量是 compaction。长期上下文会被压缩,减少重复交代,但也带来两个现实代价:长线程不一定一直在缓存里,重新访问可能更贵;压缩会丢细节,丢掉的往往是人类以为“不用说也懂”的部分。

AI 产品最怕这种缝隙。表面是记忆,实际可能是带着错觉的记忆。

记忆落到文件,代理才有账可查

Liu 没有把长期记忆全押在聊天历史里。他把 Obsidian vault 放到 GitHub,目录里有 TODO、people、projects、agent、notes,并用 AGENTS.md 要求 Codex 在项目推进、人员偏好、待办关闭后更新页面。

这比“聊天记得我”靠谱得多。

文件可检查,可 diff,可迁移。代理写下某人偏好什么、项目卡在哪里、哪个决策已经完成,用户可以审阅变更,而不是任由一个黑箱线程慢慢堆出一套无法核验的个人档案。

这也是 Codex 与普通聊天助手拉开距离的地方。聊天记录像脑内印象,文件系统像账本。企业要的是账本。

“天下熙熙,皆为利来。”放在这里不是说用户贪便宜,而是说组织采购永远看收益和责任怎么分。能省人力,老板会动心;出了错没人能审,法务和安全团队就会踩刹车。

Codex 如果想进团队流程,就不能只会回答。它必须留下痕迹。

Heartbeats 把代理从回答者推向盯事的人

Heartbeats 是这套用法里最像“代理”的部分。

线程可以每 30 分钟检查 Slack 和 Gmail,研究问题并起草回复;也可以定期看 PR、Google Docs 评论或 Slack 反馈,等反馈出现后继续改稿、重渲染、回帖。

这件事比“AI 自动写邮件”更深。它让代理开始等待外部世界。

很多工作不是一次性生成,而是等人、等评论、等 CI、等审批、等客户回话。传统聊天机器人卡在“你问我答”。Heartbeats 往前跨了一步:没人问,它也能盯着状态变化。

但 Liu 保留了人工审批,不让代理直接替他发送关键回复。这个细节不能轻轻带过。

因为真正的办公流不缺自动化,缺的是可控自动化。Slack、Gmail、Calendar、GitHub、浏览器、桌面权限一旦打通,代理就不只是帮手,也是潜在事故源。它可以省掉十分钟,也可以把一封不该发的邮件发给不该看的人。

所以问题不在产品演示漂不漂亮,而在权限和刹车怎么设计。

和 Copilot、Computer Use 的差别:Codex 想吃掉中间地带

GitHub Copilot 更偏 IDE 内编码。Anthropic 的 Computer Use 更强调电脑操作能力。Liu 展示的 Codex 用法,位置更暧昧:它把代码、文档、浏览器和协作工具混在一起。

这块中间地带很肥,也很难。

程序员一天里真正花在“写函数”的时间没想象中多。更多时候是在读需求、查 Slack、回 PR、改文档、看报错、等测试、解释为什么这件事不能这么做。Codex 如果只会补全代码,那是在吃工具链的一小块;如果能接住这些碎片,它吃的是知识工作的周转时间。

Brockman 接手产品战略后,Codex 进 ChatGPT 的意义也要放回这个框架看。不是给手机用户多一个按钮,而是把 OpenAI 的代理能力放进更高频、更通用的界面里测试。手机只是入口之一,长期线程和跨应用连接才是骨架。

我更在意的不是 Codex 能不能多写几行代码,而是它能不能把“做完一件事”的边界定义清楚。

Goals 给了一个方向:任务必须有可验证终点。Liu 举的例子是把 Python Rich 库迁移到 Rust,目标不是“按 Markdown 计划实现”,而是“通过原项目测试套件”。

这句话很实在。能不能交给代理,不看任务描述有多宏大,看验收标准有多硬。

企业采购前,先问四个脏问题

团队要不要试 Codex?可以试。但别被“个人工作操作系统”这种说法冲昏头。

采购前先问四件事:

  • Slack、Gmail、Calendar、GitHub、浏览器权限,谁批准,谁撤销?
  • 长期记忆存在本地文件、Obsidian、GitHub 或线程里,谁能审计,谁能删除?
  • prompt injection、误点击、误发信、越权读取,出了事算谁的?
  • Heartbeats 周期运行带来的成本、频率、审批点,能不能被统一管理?

Chronicle 这类利用屏幕上下文生成记忆的能力仍是 opt-in research preview,相关文档也提示了权限、速率限制和本地记忆文件安全问题。换句话说,高手可以玩,组织不能照抄。

这就是我对 Codex 这轮变化的判断:它做对了方向,但代价还没结算完。

OpenAI 如果只把 Codex 当编程助手卖,故事不够大;如果把它推成个人工作系统,就必须面对权限、审计、成本和责任。这些东西不酷,但决定产品能不能从少数高手的桌面,走进团队的日常流程。

历史上每一种生产力工具进入办公室,都会经历同一关。电话、传真、邮件、企业 IM、云文档,开始都像效率神器,后来都变成治理问题。技术负责提速,组织负责收拾提速后的混乱。

Codex 也逃不开。

开头那个问题可以收回来了:Codex 进 ChatGPT,不只是手机入口之争。Jason Liu 的实践把更深一层露出来了——OpenAI 真正在试的,是让代理从“会回答”变成“能盯事”。

能盯事,才会碰到真实工作。碰到真实工作,就会碰到真实责任。