deep openai codex everything.md
2026-04-17 · 深度解读 · 编辑:Lighthouse
速查卡
| 维度 | 内容 |
|---|---|
| 一句话总结 | OpenAI 把 Codex 从”写代码的 AI”升级为”可以代替你使用整台计算机的编程同事”,并提供跨天/跨周的自动化调度、记忆和主动建议 |
| 大白话版 | 以前 Codex 就是在终端或 IDE 里帮你写代码,现在它可以打开你 Mac 上的任何 App、用浏览器测试前端、多个 Agent 并行做事、甚至在你睡觉时自己安排未来几天的工作 |
| 核心数字 | 每周 300 万开发者使用;新增 90+ 插件;macOS 首发;跨天/跨周自动化;应用内浏览器 + SSH 远程 devbox(alpha) |
| 影响评级 | A+ — 编程 Agent 从”工具”升级为”具备 OS 能力的协作者”。Codex 首次把”背景计算机使用”作为日常能力推送到主流开发者群体 |
| 适用对象 | 已登录 ChatGPT 的 Codex 桌面用户(即日起);计算机使用能力 macOS 首发,EU/UK 稍后;企业/教育和 EU/UK 用户稍后获得个性化与记忆 |
文章背景
为什么这次更新是大事
2025 年以来,OpenAI 对 Codex 的迭代节奏明显加速:从最初的”终端里的 Claude Code 对标品”,到 IDE 集成,再到本次的”后台计算机使用 + 90+ 插件 + 自动化调度”。OpenAI 在博客里给出的关键数字是每周 300 万开发者正在使用 Codex——这个规模已经足以定义行业对”AI 编码工具”的默认预期。
本次更新的意义在于能力边界的扩张方向发生了根本性转变:
- 之前的更新是”把同一件事做得更好”(更长上下文、更多工具、更稳定的执行)
- 本次更新是”让 Codex 能做更多事”——不只是代码仓库,而是你的 Mac、你的浏览器、你的 Google Docs、你的 Slack、你的 Notion
这是从”代码 Agent”到”软件生命周期 Agent”的跨越,对应的英文标题 “Codex for (almost) everything” 并非营销辞令,而是产品定位的真实转向。
时间线位置
这次更新发生在一个密集发布窗口:
- 2026-04-16:Anthropic 发布 Claude Opus 4.7,强调长时序自主编码
- 2026-04-16:Google 在 Chrome 中上线 AI Mode,带来浏览器内的 Agent 式探索
- 2026-04-17:OpenAI Codex 本次更新发布
三家几乎同一时间推出”让 Agent 覆盖更多日常工作场景”的能力,说明2026 Q2 的主线是”Agent 泛化”——从专用工具变成通用计算机使用者。
谁在使用
OpenAI 给出的使用画像暗含信息量:开发者用 Codex 的方式,从”写代码”向更上游和更下游延伸。原文描述:
Developers start with Codex to write code, then increasingly use it to understand systems, gather context, review work, debug issues, coordinate with teammates, and keep longer-running work moving.
这不是写代码的工具,而是贯穿 SDLC(软件开发生命周期)的”AI 队友”。
完整内容还原
一、Background Computer Use:后台计算机使用
本次更新最核心的新能力,是 Codex 可以在后台使用你 Mac 上的所有应用——通过自带光标进行”看、点、输入”。
原文描述:
With background computer use, Codex can now use all of the apps on your computer by seeing, clicking, and typing with its own cursor. Multiple agents can work on your Mac in parallel, without interfering with your own work in other apps.
三个关键设计点:
- Agent 有自己的光标——不会抢占你正在操作的主光标
- 多 Agent 并行——可以同时有多个 Codex Agent 在你的 Mac 上执行不同任务
- 互不干扰——Agent 在其他 App 工作时,你在当前 App 的工作不会被打断
这种”多开、并行、无感”的设计,本质上是把 macOS 变成了 Agent 的工作场所,而不仅仅是你自己的工作场所。对开发者而言,典型用途是:
- 在不暴露 API 的 App 里做自动化
- 前端变更的迭代和验证
- 各种 GUI App 的测试
目前能力仅在 macOS 首发,EU/UK 地区稍后推出。
二、In-App Browser:应用内浏览器
Codex 开始原生支持 Web。应用内置了浏览器组件,用户可以直接在网页上评论,用以给 Agent 下达精确指令。
原文:
The app now includes an in-app browser, where you can comment directly on pages to provide precise instructions to the agent. This is useful for frontend and game development today, and over time we plan to expand it so Codex can fully command the browser beyond web applications on localhost.
这里的设计哲学值得细品:不是让 Agent 读页面 HTML,而是让用户在页面上直接标注。 这本质上是在把”用户意图”最低摩擦地传递给 Agent——你看到什么不对,就在那个像素位置写一条评论即可。
当前聚焦于前端和游戏开发场景,未来将扩展到 localhost 以外的完整浏览器操控。
三、gpt-image-1.5 图像生成
Codex 内置接入了 gpt-image-1.5,可以在同一个工作流内生成与迭代图像。
原文:
Combined with screenshots and code, it is helpful for creating visuals for product concepts, frontend designs, mockups, and games inside the same workflow.
这里的关键词是 “same workflow”(同一工作流)。之前生成 mockup 需要在另一个工具(Figma、Midjourney 等)里做,然后手动导入;现在一切都发生在 Codex 内部。对前端开发者和产品设计师,这是一个显著的工作流简化。
四、90+ 插件:Agent 工具生态爆发
OpenAI 一次性发布了 90 多个新插件,组合了 skills、应用集成和 MCP 服务器。博客列举的重点插件包括:
- Atlassian Rovo:管理 JIRA 任务
- CircleCI:CI/CD 接入
- CodeRabbit:代码评审
- GitLab Issues:GitLab 议题追踪
- Microsoft Suite:微软生态办公集成
- Neon by Databricks:Neon 数据库
- Remotion:程序化视频生成
- Render:部署服务
- Superpowers:(Anthropic 同名生态的对标/互通可能性值得关注)
这些插件的共同点是外部服务 + 状态修改能力——不再是只读的上下文检索,而是让 Agent 能够在第三方系统里”做事”。90+ 的数字也暗示 OpenAI 在组织插件生态方面投入了可观资源。
五、PR 评审与多终端:贴近 SDLC 中下游
本次更新在”编码工作流”下游的几个增强:
| 能力 | 细节 |
|---|---|
| GitHub 评审评论支持 | Agent 能直接处理 PR 中的 review comments |
| 多终端标签 | 同时打开多个终端,适应并行任务 |
| SSH 远程 devbox(alpha) | 通过 SSH 连接到远程开发沙箱 |
| 侧边栏文件预览 | 直接在侧栏预览 PDF、表格、幻灯片、文档 |
| 摘要面板(summary pane) | 跟踪 Agent 的计划、信息源和产物 |
原文将这些能力总结为:
Together, these improvements make it faster to move across all the stages of the software development lifecycle between writing code, checking outputs, reviewing changes, and collaborating with the agent in one workspace.
“一个 workspace 里完成全生命周期”是 Codex 本次产品定位的主线。
六、Automations:跨天跨周的自主调度
这是本次更新中最”未来感”的能力。Codex 的自动化现在可以:
- 复用已有的对话线程——保留之前建立的上下文
- 自我调度未来工作——Codex 自己决定何时再次唤醒自己
- 跨天/跨周执行长时任务
原文:
We have expanded automations to allow re-using existing conversation threads, preserving context previously built up. Codex can now schedule future work for itself and wake up automatically to continue on a long-term task, potentially across days or weeks.
典型用例(博客列举):
- 落地开放的 PR(landing open pull requests)
- 跟进任务
- 跨 Slack / Gmail / Notion 等工具保持对话进度
这类”自唤醒”的 Agent 设计——让 Agent 自己判断什么时候该回来干活——是长时序 Agent 的关键能力。它把 Agent 从”请求/响应”模型升级到”持续性进程”模型。
七、Memory Preview:跨会话的记忆系统
Codex 推出了记忆(memory)能力的预览版,允许它记住来自历史经验的有用上下文,包括:
- 个人偏好
- 用户的纠正
- 花时间收集过的信息
原文:
This helps future tasks complete faster and to a level of quality previously only possible through extensive custom instructions.
记忆的价值在于减少 custom instructions 的维护负担——以前为了让 Agent 稳定输出你想要的风格,你需要写长长的 system prompt;现在它能自己从历史互动里学习。
个性化功能(包括上下文感知建议和记忆)将稍后推出到 Enterprise、Edu、EU 和 UK 用户。
八、Proactive Suggestions:主动建议
Codex 开始主动建议你接下来可以做什么。它利用项目上下文、已连接的插件和记忆,给出例如:
- 识别 Google Docs 里需要你关注的评论
- 从 Slack、Notion 和代码库里拉取相关上下文
- 给出一个按优先级排序的行动清单
原文举例:
For example Codex can identify open comments in Google Docs that require your attention, pull relevant context from Slack, Notion, and your codebase, then provide you with a prioritized list of actions.
这种”你一打开 Codex,它就告诉你今天该干什么”的体验,把 Agent 从被动回应提升到主动代理。
九、发布范围与可用性
| 能力 | 可用范围 |
|---|---|
| 绝大多数新能力 | 即日起推送给登录 ChatGPT 的 Codex 桌面用户 |
| 个性化(上下文感知建议、记忆) | 稍后推送给 Enterprise / Edu / EU / UK 用户 |
| 计算机使用 | macOS 首发,EU / UK 稍后 |
核心技术洞察
洞察 1:Background Computer Use 是 Agent 形态的范式更迭
传统计算机使用 Agent(如 Anthropic Computer Use)是独占式的——你把屏幕让给 Agent,Agent 做完交还给你。Codex 的 background + multi-agent + own cursor 组合是另一条路线:
- Agent 有自己的光标和窗口焦点
- 多个 Agent 可以同时工作
- 你本人完全不被打扰
这本质上是把 Agent 从”前台助手”推向了”后台工人”。当一台 Mac 上同时跑 3-5 个 Codex Agent 做不同的事,而用户本人继续正常办公,这种形态已经接近”雇了几个远程员工共用你的机器”。
洞察 2:In-App Browser 的”评论即指令”设计
用户在网页上评论来给 Agent 指令——这是一个高度务实的交互设计。相比”让 Agent 自己识别要改的元素”,让用户在像素上标注具有以下优势:
- 零歧义:指令和视觉元素严格绑定
- 低学习成本:像在 Figma 上留评论一样自然
- 可审计:所有意图被显式记录为评论
这种设计暗示 OpenAI 认识到:Agent 的瓶颈经常不是能力,而是意图的精确传递。
洞察 3:Automations + Memory = 长时序 Agent 的两个必要齿轮
要构建能跨天跨周工作的 Agent,两个能力缺一不可:
- 自我调度——Agent 自己知道什么时候该醒来
- 持续记忆——Agent 知道上次做到哪里、用户偏好是什么
Codex 本次同时推进这两项能力,实际上是在系统性地解决长时序 Agent 的基础设施问题,而不是单点改进。
洞察 4:90+ 插件是 Agent 的”App Store 时刻”
插件数量的跃升(一次性 90+)说明 OpenAI 在有意打造 Agent 领域的 “App Store 效应”:
- 插件越多 → Codex 能做的事越多 → 开发者越依赖 Codex
- Codex 用户越多 → 第三方服务商越愿意写 Codex 插件 → 回到第一条
这是标准的双边市场网络效应。90+ 只是一个起点数字,真正的意义在于生态门槛被抬高:后来者如果不能提供类似规模的生态,很难追上。
洞察 5:Proactive Suggestions 改变了”Agent 的入口”
过去 Agent 的使用范式是”用户提问 → Agent 回答”。Proactive Suggestions 把入口反转为”Agent 主动建议 → 用户选择接受或不接受”。这种反转的深远影响:
- Agent 变成类似”助理”的角色,而不是”工具”
- 用户的精力从”想该干什么”转移到”判断 Agent 的建议”
- 长期来看,这会重塑用户对 AI 工具的心理预期
实践指南
🟢 立即可以做的
1. 升级到最新 Codex 桌面版并尝试 Background Computer Use(macOS)
如果你在 macOS 上用 Codex,最直接的价值是尝试把需要 GUI 操作但不暴露 API 的任务交给 Codex:
- 在没有 CLI 的 App 里做批量操作
- 前端视觉回归测试
- 自动化工作流调试
2. 梳理你的工作流,挑选适合 Automation 的长期任务
适合做成 Automation 的典型任务:
- 定期跟进的 PR 评审
- 跨 Slack / Gmail 的会话跟进
- 周期性的数据收集与汇总
自动化的价值不在单次节省时间,而在”认知负担的外包”——不用每周记得去做这些事。
3. 清理与安装关键插件
90+ 插件中选出对你工作流最相关的 3-5 个安装(而不是全部),原因:
- 每多一个插件,Agent 的决策空间就扩大一些,可能降低精度
- 插件安装后的首次使用通常需要 OAuth 和权限配置,最好一次集中完成
🟡 需要评估后再做的
1. 让 Codex 用 In-App Browser 操作生产环境
目前官方聚焦于前端和游戏开发(多数是 localhost),“完整浏览器操控”是未来目标。在操作生产环境的 SaaS 之前,建议:
- 在 staging 环境先跑一段时间
- 确认浏览器会话的权限边界(cookie 是否被隔离、登录态如何处理)
2. SSH 远程 devbox(alpha)
这是 alpha 能力,稳定性和数据隔离都需要评估:
- 确认 devbox 的生命周期(何时被回收?)
- 评估密钥的传递与保管机制
- 准备好 fallback 方案(alpha 能力可能随时变更)
3. 启用 Memory
记忆能力带来的个性化是双刃剑:
- 好处:减少重复告诉 Agent 同样的偏好
- 风险:如果记忆偏了,会持续产生不合预期的输出
建议在启用初期密切关注 Agent 的行为漂移,保留”清空记忆”的操作路径。
🔴 暂时不建议做的
1. 不要把企业级敏感工作流直接上 Automation
跨天跨周的自动化听起来很美,但:
- 如果环境变量/凭证在这期间变更,Agent 可能会失败
- 出现错误后的 blast radius 可能比单次任务大得多
- 当前缺少充分的”失败通知机制”相关公开信息
2. 不要指望 Background Computer Use 在所有 App 都稳定
即使在 macOS 上也要预期:
- 复杂 GUI、动画、非原生组件可能导致 Agent 出错
- 系统对话框、权限弹窗、焦点抢占都是失败点
- 先从简单、固定布局的 App 开始验证
3. 不要在 EU / UK 期待同等能力
Computer Use 和个性化能力都会稍后才在 EU / UK 开放,当前只在 macOS 首发给其他地区。监管与合规是合理原因,但在部署计划里要预留缓冲。
横向对比
与同周发布的另外两个 Agent 级更新
| 维度 | OpenAI Codex(本次) | Anthropic Claude Opus 4.7 + Claude Code | Google AI Mode in Chrome |
|---|---|---|---|
| 核心能力定位 | 编程 Agent 延伸到整台计算机 | 长时序自主编码 + 代码评审 | 浏览器内 AI 探索 + 多 Tab 上下文 |
| 跨 App 能力 | Background Computer Use + 浏览器 + 90+ 插件 | Claude Code 聚焦终端,Opus 4.7 提供模型底座 | Chrome 内部多 Tab / 图像 / PDF 上下文 |
| 长时序工作 | Automations 跨天跨周 + 自我调度 | Opus 4.7 长时序 coding(Devin / Scott Wu 引述) | 未强调 |
| 记忆/个性化 | Memory preview + proactive suggestions | file system-based memory(Opus 4.7) | 未强调 |
| 生态 | 90+ 插件 + MCP | Claude Code agent tool 聚焦编码 | Chrome 插件生态已成熟 |
| 首发平台 | macOS(Computer Use) | 全线 Claude 产品 + API + Bedrock/Vertex/Foundry | 美国,后续扩展 |
关键差异
OpenAI 打”工作台”:把 Codex 变成开发者的桌面工作中枢,强调横向覆盖——从代码到整台计算机的所有应用。
Anthropic 打”模型底座”:Opus 4.7 的升级聚焦在编码质量和长时序能力,Claude Code 是承载这些能力的产品,但产品扩张节奏明显更保守。
Google 打”入口”:AI Mode in Chrome 利用 Chrome 的入口优势,在用户”已经在用的环境”里附加 AI 能力,而不是让用户迁移到新产品。
三者的侧重点反映了各自的结构性优势:OpenAI 无桌面入口所以要做桌面 App 并扩能力;Anthropic 模型优势大所以强调模型更新;Google 浏览器入口最强所以把 AI 装进 Chrome。
批判性分析
这次更新做对了什么
-
“生命周期全覆盖”的产品叙事很清晰。Codex 不再是”更好的代码补全”,而是”从想法到部署的 AI 协作者”。这种叙事让用户更容易理解 Codex 的价值——而价值理解是复杂产品用户增长的瓶颈。
-
Background Computer Use + Multi-Agent 是真正的新能力。相比”更大上下文”或”更快推理”这种渐进式改进,在 macOS 上多个 Agent 并行使用 App 的能力是能力边界上的突破。
-
Automations + Memory 配合得当。这两个能力单独存在价值有限,合起来才构成”可以交给 Codex 长期跟进的事情”。产品经理在配对这些能力上显然经过了仔细设计。
-
插件数量一次性打出 90+。选择在一次发布中集中释放大量插件(而不是一个月发一个),是在有意制造”生态充实感”的市场信号。
值得关注的风险
-
Background Computer Use 的安全模型未充分披露。Agent 用自己的光标操作你的所有 App 意味着它能看到的信息范围极广——包括任意打开的文档、消息、个人数据。原文没有充分讨论:
- Agent 的截屏/观察范围是否可以限定
- 多 Agent 之间是否共享观察数据
- 观察到的敏感信息如何处理(是否上传到 OpenAI 后端)
-
macOS 首发带来的碎片化。Linux 用户、Windows 用户、EU / UK 用户在”计算机使用”能力上的缺位可能会产生社区分裂。对团队而言,如果成员跨地区/跨平台,Codex 的统一使用体验受损。
-
Automation 的失败态缺乏讨论。跨天跨周的自动化任务如果失败,具体机制是什么?Agent 是否会反复重试?用户如何被通知?这些关键问题原文没有给出答案。
-
90+ 插件的质量参差。大规模插件发布的典型问题是质量方差大。有些插件可能是官方深度集成,有些可能只是简单封装第三方 API。用户需要自行评估每个插件的可靠性。
-
Memory 的可控性未被明确化。Codex 记住什么、不记什么、如何让它”忘记”某些东西——这些是构建用户信任的关键,但在原文中没有详细展开。
缺失的关键信息(文章未披露)
- 性能开销:Background Computer Use 的 CPU / 内存占用是什么水平?多 Agent 并行是否会拖慢主机?——文章未披露
- 成本模型:Automation 跨天跨周执行,token 消耗如何计费?——文章未披露
- 安全边界:沙箱化程度如何?Agent 是否能访问文件系统、网络?——文章未披露
- 失败处理:长任务失败时的重试、通知、回滚机制?——文章未披露
- GUI 可靠性基准:Computer Use 在真实应用上的成功率?——文章未披露
未来展望
Codex 本次更新的走向透露了 OpenAI 对”AI 劳动力”的长远战略:
- Agent 将”居住”在 macOS(之后是 Windows/Linux)上,而不仅是云端服务
- 用户将管理 Agent 的工作队列,而不是一次性发指令
- Agent 的 SLA 会逐渐被规范化——成功率、延迟、成本会成为新的产品维度
- Agent 之间的协作(多 Codex、Codex + 第三方 Agent)会成为下一个竞争焦点
对开发者而言,值得从现在开始思考:你哪些任务应该是你自己做的,哪些任务应该是”一个持续运行的 Codex”做的? 这个边界会在接下来 6-12 个月反复被重画。
本文基于 OpenAI 官方博客《Codex for (almost) everything》(http://openai.com/index/codex-for-almost-everything/)的公开内容撰写,所有能力描述与可用范围均以该页面为准。文章未披露的指标按原文已做标注。