deep gpt54 full series.md
2026-04-02 · 深度解读 · 编辑:小小动
速查卡
| 维度 | 内容 |
|---|---|
| 一句话总结 | OpenAI 在 3 月用 8 次重大更新完成了 GPT-5.4 四层产品矩阵布局,配合 Sora API 全面扩展和 Codex 爆发式增长,打出了自 GPT-4 以来最密集的产品攻势 |
| 大白话版 | OpenAI 一个月内一口气推出了旗舰、高算力、轻量、超轻量四款 GPT-5.4 模型,从最聪明到最便宜全覆盖,还让 AI 学会了操作电脑界面、按需装载工具、自动压缩长对话 |
| 核心数字 | 4 款模型 / 1M token 上下文 / 128K 输出 / Codex 200万周活(3月5倍增长) / Sora 1080p 20s / 3月8次重大更新 |
| 影响评级 | S — GPT-5 系列第四次迭代完成全产品线布局,标志着前沿模型竞争从”单点旗舰”进入”全矩阵覆盖”时代 |
GPT-5.4 全系列规格一览
| GPT-5.4 | GPT-5.4 Pro | GPT-5.4 Mini | GPT-5.4 Nano | |
|---|---|---|---|---|
| 发布日期 | 3月5日 | 3月5日 | 3月17日 | 3月17日 |
| 上下文窗口 | 1,000,000 | 1,000,000+ | 400,000 | 400,000 |
| 最大输出 | 128,000 | 128,000 | 128,000 | 128,000 |
| 输入价格 | $2.50/MTok | $30.00/MTok | $0.75/MTok | $0.20/MTok |
| 输出价格 | $15.00/MTok | $180.00/MTok | $4.50/MTok | $1.25/MTok |
| 缓存折扣 | 90% off | — | 90% off | 90% off |
| Computer Use | 支持 | 支持 | 支持 | 不支持 |
| Tool Search | 支持 | 支持 | 支持 | 不支持 |
| Compaction | 支持 | 支持 | 支持 | 支持 |
| 知识截止 | 2025-08-31 | 2025-08-31 | 2025-08-31 | 2025-08-31 |
| API 接口 | Chat + Responses | 仅 Responses | Chat + Responses | Chat + Responses |
| 定位 | 全能旗舰 | 硬问题高算力 | 高容量主力 | 高频低成本 |
注:GPT-5.4 Pro 长上下文模式输入 270/MTok。Batch 和 Flex 处理享标准价 50% 折扣。区域处理端点加收 10%。
为什么这件事是 S 级
1. 这不是一次模型发布,是一次产品矩阵的完成
GPT-5 系列自 2025 年中首发以来,经历了 5.0 -> 5.1 -> 5.2 -> 5.3 -> 5.4 共五次迭代。但之前的迭代更像是单点升级——更好的旗舰模型替换旧版。
GPT-5.4 不同。它第一次在同一代模型内同时铺开四个层级:
- 旗舰层(GPT-5.4):最强智能,覆盖 Agent、编程、专业工作流
- 高算力层(GPT-5.4 Pro):为难题投入更多计算,面向需要深度推理的场景
- 主力层(GPT-5.4 Mini):5.4 级能力但更快更便宜,面向批量生产工作负载
- 普惠层(GPT-5.4 Nano):极致速度和成本优化,面向简单高频任务
这意味着 OpenAI 不再只是在”做最聪明的模型”,而是在做覆盖整条价值链的模型产品组合。
2. 三项新基建能力改变了 API 模型的使用范式
1M 上下文窗口本身已经不算新闻(Claude Opus 4.6 也是 1M),但 GPT-5.4 的真正变化在于三个配套能力的组合:
- Computer Use:让模型能操控图形界面
- Tool Search:让工具按需加载而非全量注入
- Compaction:让长对话原生压缩
这三者叠加的含义是:GPT-5.4 不只是一个更聪明的文本模型,而是一个面向长时间运行 Agent 场景设计的执行层。
3. 发布节奏本身就是信号
仅 3 月一个月,OpenAI Changelog 就记录了 8 次重大更新。这种密度在 OpenAI 历史上前所未有,也远超竞争对手。
技术深潜
Computer Use:截图驱动的 UI 交互
GPT-5.4 内置的 Computer Use 是 OpenAI 对 Anthropic 同名功能的直接回应。它的工作原理是一个视觉循环:
截图 → 模型分析界面状态 → 输出结构化操作指令 → 执行 → 新截图 → 循环
支持的操作类型:
| 操作 | 说明 |
|---|---|
| 点击 | 左键/中键/右键,指定坐标 |
| 输入 | 向聚焦字段键入文本 |
| 快捷键 | Enter、Escape、方向键等特殊按键 |
| 鼠标移动 | 移动光标但不点击 |
| 拖拽 | 按住鼠标沿路径移动 |
| 滚动 | 在指定位置执行滚轮操作 |
| 等待 | 暂停执行等待界面响应 |
| 截屏 | 主动请求视觉反馈 |
三种集成路径:
- 内置循环(Responses API):使用原生
computer工具,最简单的集成方式 - 自定义工具:对接 Playwright、Selenium、VNC 或 MCP 自动化框架
- 代码执行:模型编写并运行脚本来操控 UI
与 Anthropic Computer Use 的关键差异:
Anthropic 是 Computer Use 的先行者(2024 年 10 月首次公开预览)。OpenAI 的实现在概念上非常接近——都是截图驱动的视觉循环——但在集成架构上有自己的设计:
| 维度 | OpenAI GPT-5.4 | Anthropic Claude |
|---|---|---|
| 首次发布 | 2026 年 3 月 | 2024 年 10 月 |
| API 位置 | Responses API 内置 | Tool Use 框架 |
| 集成选项 | 内置循环 + 自定义工具 + 代码执行 | 统一 Tool Use 接口 |
| 模型覆盖 | GPT-5.4、Mini | Claude 系列 |
| 安全建议 | 隔离浏览器/VM + 人在环 | 沙盒环境 + 权限控制 |
OpenAI 的文档明确建议:“在隔离的浏览器或虚拟机中运行 Computer Use,对高影响操作保持人类在环,将页面内容视为不受信任的输入。” 这与 Anthropic 的安全立场高度一致——两家公司都认为 Computer Use 目前仍需要严格的安全边界。
Tool Search:运行时延迟加载工具
Tool Search 是 GPT-5.4 引入的一个真正的架构创新,而不仅仅是功能增强。
问题背景: 在传统的函数调用模式中,所有可用工具的定义都必须在请求时一次性注入上下文窗口。当工具数量多达数十甚至上百个时(在企业级 Agent 场景中这很常见),工具定义本身可能消耗数千甚至上万 token,造成:
- 不必要的 token 消耗和成本
- 上下文窗口被工具定义挤占,减少了留给实际对话和推理的空间
- 首次推理延迟增加
Tool Search 的解法: 将工具定义标记为 defer_loading: true,模型在运行时根据需要动态搜索和加载相关工具。
请求时:只注入核心工具 + 延迟工具的命名空间描述
↓
模型推理:判断需要哪些延迟工具
↓
工具搜索:加载匹配的工具定义
↓
继续推理:使用加载的工具完成任务
两种实现模式:
- 托管搜索(Hosted Tool Search):OpenAI 服务端处理工具发现。延迟工具在请求中声明,API 自动搜索并返回匹配子集。
- 客户端搜索(Client-Executed Tool Search):应用端控制工具发现。模型发出
tool_search_call,应用执行查找并通过tool_search_output返回结果。
缓存友好设计: Tool Search 将新加载的工具注入到上下文窗口的末尾而非开头,从而保留已有的模型缓存——这意味着动态加载工具不会导致之前的推理缓存失效。
最佳实践: OpenAI 建议将延迟函数按命名空间分组(每组不超过 10 个函数),并提供清晰的命名空间描述,以获得最优的 token 效率。
为什么这很重要: Tool Search 本质上是把”编译时链接”变成了”运行时动态链接”——一个在操作系统设计中早已成熟的思想,现在被引入了 LLM 工具调用架构。对于构建拥有大量工具的 Agent 系统,这可能显著降低成本和延迟。
Compaction:原生长对话压缩
Compaction 解决的是长时间运行 Agent 工作流中上下文无限增长的问题。
核心机制: 当对话的 token 数超过设定阈值时,Compaction 自动将历史上下文压缩为一个加密的、不可读的压缩项(compaction item),这个压缩项携带了关键的历史状态和推理信息,但使用的 token 数显著减少。
两种使用模式:
| 模式 | 触发方式 | 使用场景 |
|---|---|---|
| 服务端 Compaction | 自动触发(compact_threshold) | 标准长对话 |
| 独立 Compact 端点 | 显式调用 /responses/compact | 精细控制 |
服务端 Compaction 工作流:
- 在
/responses请求中设置context_management和compact_threshold参数 - 当渲染 token 数超过阈值时,自动触发压缩
- 返回加密的 compaction item
- 后续请求中,可以丢弃 compaction item 之前的所有历史项
关键设计决策:
- 压缩项是”不透明的,不供人类解读的”——这是有意为之的设计,避免了压缩信息被误用或篡改
- 支持 ZDR(Zero Data Retention)模式,
store=false时完全兼容 - 两种上下文链接方式:数组追加(stateless)和
previous_response_id(stateful)
与竞品的对比: Anthropic 的 Claude 系列目前没有公开的原生 Compaction 等价功能(长对话管理主要依赖应用层实现)。Google Gemini 3 Pro 有类似的上下文管理特性但实现细节不同。OpenAI 将 Compaction 作为 API 原生功能提供,降低了开发者自行实现长对话管理的复杂度。
四层模型矩阵深度分析
GPT-5.4 旗舰版:全能执行层
定位: “Best intelligence at scale for agentic, coding, and professional workflows”
GPT-5.4 旗舰版是整个系列的能力上限。1M token 上下文 + 128K 输出 + Computer Use + Tool Search + Compaction 的完整能力组合,使其成为目前商业 API 中功能最全面的单体模型之一。
定价分析:
- 输入 15.00/MTok
- 缓存命中时输入仅 $0.25/MTok(90% 折扣)
- 对比 GPT-5.3:价格带基本持平,能力显著升级
- 对比 Claude Opus 4.6:价格区间接近,竞争直接
适用场景: 需要最强智能且预算充足的场景——复杂 Agent 编排、专业级代码生成、长文档分析、多工具协同任务。
GPT-5.4 Pro:深度推理的算力溢价
定位: 面向”tougher problems that benefit from more compute”
GPT-5.4 Pro 是一个有趣的产品设计——它不是一个不同的模型架构,而是同一个 GPT-5.4 配以更多的推理计算资源。仅通过 Responses API 提供,不支持传统 Chat Completions。
定价含义:
- 输入 180/MTok 也是 12 倍
- 长上下文模式进一步翻倍:输入 270/MTok
- 这意味着 Pro 处理一个完整 1M 上下文请求的成本约为 23,040
使用逻辑: Pro 不是用来替代旗舰版的日常选择。它的定位更像是”遇到旗舰版搞不定的硬问题时的升级选项”——数学推理、复杂代码调试、多步法律分析等需要模型”多想一会儿”的场景。
产品策略对标: 这与 Anthropic 的 Claude Opus 策略类似——不是做一个全场景最优模型,而是在高端场景上提供溢价选项。区别在于 OpenAI 选择在同一模型家族内做算力分层,而 Anthropic 通过不同的模型名称(Sonnet vs Opus)来区分。
GPT-5.4 Mini:真正的主力选手
定位: “Strongest mini model yet for coding, computer use, and subagents”
从 OpenAI 的产品描述可以看出,Mini 才是他们预期中 API 调用量最大的模型。它继承了 5.4 级的核心能力(包括 Computer Use 和 Tool Search),但上下文窗口收缩到 400K,延迟更低,成本仅为旗舰版的 30%。
关键规格:
- 输入 4.50/MTok
- 缓存输入 $0.075/MTok
- 400K 上下文 + 128K 输出
- 完整支持 Computer Use、Tool Search、Compaction
市场定位: Mini 的价格和能力组合直接对标 Claude Sonnet 4.6 和 Gemini 3 Flash——这是目前 API 市场上竞争最激烈的价格带。
产品逻辑: 大多数 Agent 工作流不需要 1M 上下文,400K 对 90% 的实际场景已经足够。Mini 以 30% 的成本提供 80-90% 的旗舰能力,是多 Agent 系统中 Sub-Agent 的理想选择。
GPT-5.4 Nano:极致的成本-速度优化
定位: “Cheapest GPT-5.4-class model for simple high-volume tasks”
Nano 是矩阵中最”克制”的成员。它砍掉了 Computer Use 和 Tool Search,只保留 Compaction 和基础的函数调用/搜索/MCP 能力,换来的是极低的成本。
关键规格:
- 输入 1.25/MTok
- 缓存输入 $0.02/MTok
- 400K 上下文 + 128K 输出
- 不支持 Computer Use、不支持 Tool Search
- 支持 Functions、Web Search、File Search、MCP
使用场景: 分类、摘要、格式转换、简单问答、数据提取——所有不需要复杂推理或工具交互的高频任务。
成本对比:
| 任务类型 | 使用旗舰版成本 | 使用 Nano 成本 | 节省 |
|---|---|---|---|
| 10K 输入 + 1K 输出 | $0.04 | $0.003 | 92% |
| 100K 输入 + 10K 输出 | $0.40 | $0.033 | 92% |
| 1M 输入 + 50K 输出 (旗舰) vs 400K + 50K (Nano) | $3.25 | $0.143 | 96% |
对于每天处理百万级请求的应用,Nano 的成本优势可能意味着每月数万甚至数十万美元的差异。
Sora API:从”能生成视频”到”视频生成基础设施”
3 月 12 日的 Sora API 更新是一次范围极广的功能扩展:
| 功能 | 详情 |
|---|---|
| 角色引用 | 可重用角色定义,跨视频保持一致性 |
| 生成时长 | 扩展到 20 秒 |
| 分辨率 | 1080p(Pro 版 $0.70/秒) |
| 视频编辑 | 新增 /v1/videos/edits 端点(替代 remix,6 个月迁移期) |
| 批量生成 | 支持 Batch API 批量处理 |
定价含义: 1080p Pro 版 14。这个价格对于专业内容制作来说已经相当有竞争力——一条 20 秒的专业级视频素材在传统制作中的成本往往是这个数字的 100 倍以上。
产品演进轨迹: Sora 从最初的”演示性质的文本到视频生成”,经过 API 开放、分辨率提升、编辑功能引入,正在快速向”视频生成基础设施”演进。角色引用和批量 API 的加入意味着它开始具备支撑规模化视频生产工作流的能力。
竞争格局: 在视频生成 API 领域,Sora 的功能完整度(生成 + 编辑 + 角色一致性 + 批量处理 + 高分辨率)目前领先于 Runway Gen-4 和可灵 3.0。
Codex:200 万周活背后的增长飞轮
Codex 的增长数据可能是 3 月最被低估的信号:
| 指标 | 数值 |
|---|---|
| 周活跃用户 | 200 万+ |
| 3 个月增长 | 5 倍 |
| 月环比增长 | 70%+ |
增长飞轮解析:
200 万周活意味着 Codex 已经从”早期采用者工具”跨入”主流开发者工具”的门槛。70%+ 的月环比增长率如果持续,意味着:
- 4 月:约 340 万周活
- 5 月:约 580 万周活
- 6 月:约 980 万周活
当然,这种增速不可能无限持续。但即使增速放缓到 30-40%/月,年底 Codex 也可能触达千万级周活。
产业含义: 全球约有 2700-3000 万职业开发者。Codex 200 万周活意味着约 7% 的渗透率。如果加上 GitHub Copilot(基于 OpenAI 模型)的用户,OpenAI 系工具在开发者群体中的实际覆盖率可能已经超过 20%。
这与 GPT-5.4 Mini/Nano 的产品策略形成了清晰的商业闭环:Codex 带来开发者流量 -> 开发者构建 Agent 应用 -> 应用调用 GPT-5.4 系列 API -> API 收入增长。
横向竞争格局
旗舰模型三方对比
| 维度 | GPT-5.4 | Claude Opus 4.6 | Gemini 3 Pro |
|---|---|---|---|
| 上下文窗口 | 1M | 1M | 2M |
| 最大输出 | 128K | 128K | 64K |
| Computer Use | 内置(Responses API) | 原生支持(先行者) | 有限支持 |
| 工具动态加载 | Tool Search | 无等价功能 | 无等价功能 |
| 长对话压缩 | Compaction(API 原生) | 应用层实现 | 部分支持 |
| 知识截止 | 2025-08 | 2025 年中 | 2025 年中 |
| 发布节奏 | 极高(月 8 更新) | 高 | 中 |
产品矩阵对比
| 层级 | OpenAI | Anthropic | |
|---|---|---|---|
| 旗舰 | GPT-5.4 | Claude Opus 4.6 | Gemini 3 Pro |
| 高算力 | GPT-5.4 Pro | — | — |
| 主力 | GPT-5.4 Mini | Claude Sonnet 4.6 | Gemini 3 Flash |
| 轻量 | GPT-5.4 Nano | Claude Haiku 4 | Gemini 3.1 Flash-Lite |
| 矩阵完整度 | 最完整(4 层) | 3 层 | 3-4 层 |
关键观察:
- OpenAI 的矩阵最完整:四层清晰分工,从 30/MTok 覆盖全价格带
- Anthropic 的长处在于先发:Computer Use 早于 OpenAI 18 个月,Claude Code 在 Agent 编程领域积累了深厚的开发者心智
- Google 的优势在于上下文长度和生态:Gemini 3 Pro 的 2M 上下文仍是最长的,且 Google 拥有 Antigravity 等 Agent 开发平台
- Tool Search 是 OpenAI 的独家差异化:截至目前,动态工具加载在竞品中没有等价功能
3 月 Changelog 全景
为了理解 GPT-5.4 发布的完整语境,有必要看看 OpenAI 3 月的全部重大更新:
| 日期 | 更新 |
|---|---|
| 3/5 | GPT-5.4 旗舰版 + Pro 版发布 |
| 3/5 | Computer Use、Tool Search、Compaction 功能上线 |
| 3/12 | Sora API 扩展(1080p/20s/角色引用/编辑/批量) |
| 3/13 | GPT-5.4 图像编码器 bug 修复 |
| 3/16 | gpt-5.3-chat-latest 模型标签更新 |
| 3/17 | GPT-5.4 Mini 发布 |
| 3/17 | GPT-5.4 Nano 发布 |
一个月内 8 次重大更新,平均每 4 天一次。这种密度传递的信号很明确:OpenAI 正在加速发布节奏,试图通过高频迭代拉开与竞争对手的产品丰富度差距。
风险与质疑
1. 快速迭代的代价
每 4 天一次重大更新对开发者来说是双刃剑。好处是能力持续进化,坏处是:
- API 行为可能在版本间出现微妙变化
- 开发者需要频繁测试和适配
- 文档可能跟不上功能发布的节奏
GPT-5 系列从 5.0 到 5.4 仅约一年时间,5 次大版本迭代。对于正在生产环境中使用 GPT-5.2 或 5.3 的企业来说,这种节奏可能带来迁移疲劳。
2. GPT-5.4 相对 5.3 的实际提升幅度存疑
OpenAI 的 Changelog 和产品页面强调了新功能(Computer Use、Tool Search、Compaction),但对核心智能水平相对 5.3 的提升缺乏具体的 benchmark 数据。
一个关键问题是:5.4 的智能提升是来自模型本身,还是主要来自新的系统层功能? 如果是后者,那 5.4 的价值更多在于”工程化包装”而非”智能跃迁”。
需要等待 SWE-Bench、AIME、GPQA 等标准基准的独立评测来回答这个问题。
3. Computer Use 的成熟度
尽管 Computer Use 作为内置功能上线,但 OpenAI 自己的安全建议——“在隔离环境中运行”、“对高影响操作保持人类在环”——说明这仍然是一个需要谨慎使用的功能。截图驱动的 UI 交互在以下场景中可能不稳定:
- 动态加载的单页应用
- 高度定制的企业内部系统
- 需要精确坐标操作的复杂 UI
Anthropic 在 Computer Use 上有 18 个月的先发优势和迭代经验,OpenAI 的实现在真实场景中的鲁棒性如何,还需要时间验证。
4. 定价策略的可持续性
GPT-5.4 Nano 的 1220 亿融资、估值 $8520 亿的公司来说,能否在如此激进的定价下实现盈利预期,是投资者关心的核心问题。
判断
GPT-5.4 全系列发布标志着前沿 AI 模型竞争进入了一个新阶段:不再是”谁的旗舰最强”的单点比拼,而是”谁的产品矩阵最完整、开发者体验最好、生态飞轮转得最快”的系统性竞争。
OpenAI 3 月的表现证明了它在产品执行力上的优势——一个月内完成四层模型矩阵 + 三项新基建能力 + 视频 API 全面扩展 + Codex 爆发式增长,这种密度在整个行业中无出其右。
但也要看到几个结构性挑战:
- 快不等于好。高频迭代如果伴随着不够稳定的 API 行为,反而会损害开发者信任。
- 功能完整不等于体验最优。Anthropic 在 Computer Use、Agent 编程(Claude Code)等垂直方向上的深度积累,不是 OpenAI 一次发布就能追平的。
- Codex 的增长虽然惊人,但面临 GitHub Copilot 的品牌替代风险——毕竟 Copilot 底层也是 OpenAI 的模型。
未来 3-6 个月最值得盯的几件事:
- GPT-5.4 在标准 benchmark 上的独立评测结果
- Computer Use 和 Tool Search 在真实生产环境中的稳定性反馈
- Codex 的增长曲线是否出现拐点
- Anthropic 和 Google 是否推出等价的 Tool Search 功能
- GPT-5.5 是否在 2026 年 Q3 前出现——如果是,意味着 GPT-5 系列的迭代周期已缩短到约 2 个月
接下来该盯什么
- 短期(1-2 周): SWE-Bench Verified、AIME 2025、GPQA Diamond 上 GPT-5.4 vs Claude Opus 4.6 vs Gemini 3 Pro 的独立评测
- 中期(1-2 月): Computer Use 和 Tool Search 在企业 Agent 场景中的实际落地反馈;Codex 是否在 5 月达到 500 万周活
- 长期(3-6 月): GPT-5.5 是否出现;OpenAI 的四层矩阵策略是否被 Anthropic 和 Google 复制;Sora API 是否开始产生可观的视频生成收入