News

deep gpt54 full series.md

2026-04-02 · 深度解读 · 编辑：小小动

速查卡

维度	内容
一句话总结	OpenAI 在 3 月用 8 次重大更新完成了 GPT-5.4 四层产品矩阵布局，配合 Sora API 全面扩展和 Codex 爆发式增长，打出了自 GPT-4 以来最密集的产品攻势
大白话版	OpenAI 一个月内一口气推出了旗舰、高算力、轻量、超轻量四款 GPT-5.4 模型，从最聪明到最便宜全覆盖，还让 AI 学会了操作电脑界面、按需装载工具、自动压缩长对话
核心数字	4 款模型 / 1M token 上下文 / 128K 输出 / Codex 200万周活(3月5倍增长) / Sora 1080p 20s / 3月8次重大更新
影响评级	S — GPT-5 系列第四次迭代完成全产品线布局，标志着前沿模型竞争从”单点旗舰”进入”全矩阵覆盖”时代

GPT-5.4 全系列规格一览

	GPT-5.4	GPT-5.4 Pro	GPT-5.4 Mini	GPT-5.4 Nano
发布日期	3月5日	3月5日	3月17日	3月17日
上下文窗口	1,000,000	1,000,000+	400,000	400,000
最大输出	128,000	128,000	128,000	128,000
输入价格	$2.50/MTok	$30.00/MTok	$0.75/MTok	$0.20/MTok
输出价格	$15.00/MTok	$180.00/MTok	$4.50/MTok	$1.25/MTok
缓存折扣	90% off	—	90% off	90% off
Computer Use	支持	支持	支持	不支持
Tool Search	支持	支持	支持	不支持
Compaction	支持	支持	支持	支持
知识截止	2025-08-31	2025-08-31	2025-08-31	2025-08-31
API 接口	Chat + Responses	仅 Responses	Chat + Responses	Chat + Responses
定位	全能旗舰	硬问题高算力	高容量主力	高频低成本

注：GPT-5.4 Pro 长上下文模式输入 $60/MTok、输出$ 270/MTok。Batch 和 Flex 处理享标准价 50% 折扣。区域处理端点加收 10%。

为什么这件事是 S 级

1. 这不是一次模型发布，是一次产品矩阵的完成

GPT-5 系列自 2025 年中首发以来，经历了 5.0 -> 5.1 -> 5.2 -> 5.3 -> 5.4 共五次迭代。但之前的迭代更像是单点升级——更好的旗舰模型替换旧版。

GPT-5.4 不同。它第一次在同一代模型内同时铺开四个层级：

旗舰层（GPT-5.4）：最强智能，覆盖 Agent、编程、专业工作流
高算力层（GPT-5.4 Pro）：为难题投入更多计算，面向需要深度推理的场景
主力层（GPT-5.4 Mini）：5.4 级能力但更快更便宜，面向批量生产工作负载
普惠层（GPT-5.4 Nano）：极致速度和成本优化，面向简单高频任务

这意味着 OpenAI 不再只是在”做最聪明的模型”，而是在做覆盖整条价值链的模型产品组合。

2. 三项新基建能力改变了 API 模型的使用范式

1M 上下文窗口本身已经不算新闻（Claude Opus 4.6 也是 1M），但 GPT-5.4 的真正变化在于三个配套能力的组合：

Computer Use：让模型能操控图形界面
Tool Search：让工具按需加载而非全量注入
Compaction：让长对话原生压缩

这三者叠加的含义是：GPT-5.4 不只是一个更聪明的文本模型，而是一个面向长时间运行 Agent 场景设计的执行层。

3. 发布节奏本身就是信号

仅 3 月一个月，OpenAI Changelog 就记录了 8 次重大更新。这种密度在 OpenAI 历史上前所未有，也远超竞争对手。

技术深潜

Computer Use：截图驱动的 UI 交互

GPT-5.4 内置的 Computer Use 是 OpenAI 对 Anthropic 同名功能的直接回应。它的工作原理是一个视觉循环：

截图 → 模型分析界面状态 → 输出结构化操作指令 → 执行 → 新截图 → 循环

支持的操作类型：

操作	说明
点击	左键/中键/右键，指定坐标
输入	向聚焦字段键入文本
快捷键	Enter、Escape、方向键等特殊按键
鼠标移动	移动光标但不点击
拖拽	按住鼠标沿路径移动
滚动	在指定位置执行滚轮操作
等待	暂停执行等待界面响应
截屏	主动请求视觉反馈

三种集成路径：

内置循环（Responses API）：使用原生 computer 工具，最简单的集成方式
自定义工具：对接 Playwright、Selenium、VNC 或 MCP 自动化框架
代码执行：模型编写并运行脚本来操控 UI

与 Anthropic Computer Use 的关键差异：

Anthropic 是 Computer Use 的先行者（2024 年 10 月首次公开预览）。OpenAI 的实现在概念上非常接近——都是截图驱动的视觉循环——但在集成架构上有自己的设计：

维度	OpenAI GPT-5.4	Anthropic Claude
首次发布	2026 年 3 月	2024 年 10 月
API 位置	Responses API 内置	Tool Use 框架
集成选项	内置循环 + 自定义工具 + 代码执行	统一 Tool Use 接口
模型覆盖	GPT-5.4、Mini	Claude 系列
安全建议	隔离浏览器/VM + 人在环	沙盒环境 + 权限控制

OpenAI 的文档明确建议：“在隔离的浏览器或虚拟机中运行 Computer Use，对高影响操作保持人类在环，将页面内容视为不受信任的输入。” 这与 Anthropic 的安全立场高度一致——两家公司都认为 Computer Use 目前仍需要严格的安全边界。

Tool Search：运行时延迟加载工具

Tool Search 是 GPT-5.4 引入的一个真正的架构创新，而不仅仅是功能增强。

问题背景： 在传统的函数调用模式中，所有可用工具的定义都必须在请求时一次性注入上下文窗口。当工具数量多达数十甚至上百个时（在企业级 Agent 场景中这很常见），工具定义本身可能消耗数千甚至上万 token，造成：

不必要的 token 消耗和成本
上下文窗口被工具定义挤占，减少了留给实际对话和推理的空间
首次推理延迟增加

Tool Search 的解法： 将工具定义标记为 defer_loading: true，模型在运行时根据需要动态搜索和加载相关工具。

请求时：只注入核心工具 + 延迟工具的命名空间描述
↓
模型推理：判断需要哪些延迟工具
↓
工具搜索：加载匹配的工具定义
↓
继续推理：使用加载的工具完成任务

两种实现模式：

托管搜索（Hosted Tool Search）：OpenAI 服务端处理工具发现。延迟工具在请求中声明，API 自动搜索并返回匹配子集。
客户端搜索（Client-Executed Tool Search）：应用端控制工具发现。模型发出 tool_search_call，应用执行查找并通过 tool_search_output 返回结果。

缓存友好设计： Tool Search 将新加载的工具注入到上下文窗口的末尾而非开头，从而保留已有的模型缓存——这意味着动态加载工具不会导致之前的推理缓存失效。

最佳实践： OpenAI 建议将延迟函数按命名空间分组（每组不超过 10 个函数），并提供清晰的命名空间描述，以获得最优的 token 效率。

为什么这很重要： Tool Search 本质上是把”编译时链接”变成了”运行时动态链接”——一个在操作系统设计中早已成熟的思想，现在被引入了 LLM 工具调用架构。对于构建拥有大量工具的 Agent 系统，这可能显著降低成本和延迟。

Compaction：原生长对话压缩

Compaction 解决的是长时间运行 Agent 工作流中上下文无限增长的问题。

核心机制： 当对话的 token 数超过设定阈值时，Compaction 自动将历史上下文压缩为一个加密的、不可读的压缩项（compaction item），这个压缩项携带了关键的历史状态和推理信息，但使用的 token 数显著减少。

两种使用模式：

模式	触发方式	使用场景
服务端 Compaction	自动触发（`compact_threshold`）	标准长对话
独立 Compact 端点	显式调用 `/responses/compact`	精细控制

服务端 Compaction 工作流：

在 /responses 请求中设置 context_management 和 compact_threshold 参数
当渲染 token 数超过阈值时，自动触发压缩
返回加密的 compaction item
后续请求中，可以丢弃 compaction item 之前的所有历史项

关键设计决策：

压缩项是”不透明的，不供人类解读的”——这是有意为之的设计，避免了压缩信息被误用或篡改
支持 ZDR（Zero Data Retention）模式，store=false 时完全兼容
两种上下文链接方式：数组追加（stateless）和 previous_response_id（stateful）

与竞品的对比： Anthropic 的 Claude 系列目前没有公开的原生 Compaction 等价功能（长对话管理主要依赖应用层实现）。Google Gemini 3 Pro 有类似的上下文管理特性但实现细节不同。OpenAI 将 Compaction 作为 API 原生功能提供，降低了开发者自行实现长对话管理的复杂度。

四层模型矩阵深度分析

GPT-5.4 旗舰版：全能执行层

定位： “Best intelligence at scale for agentic, coding, and professional workflows”

GPT-5.4 旗舰版是整个系列的能力上限。1M token 上下文 + 128K 输出 + Computer Use + Tool Search + Compaction 的完整能力组合，使其成为目前商业 API 中功能最全面的单体模型之一。

定价分析：

输入 $2.50/MTok，输出$ 15.00/MTok
缓存命中时输入仅 $0.25/MTok（90% 折扣）
对比 GPT-5.3：价格带基本持平，能力显著升级
对比 Claude Opus 4.6：价格区间接近，竞争直接

适用场景： 需要最强智能且预算充足的场景——复杂 Agent 编排、专业级代码生成、长文档分析、多工具协同任务。

GPT-5.4 Pro：深度推理的算力溢价

定位： 面向”tougher problems that benefit from more compute”

GPT-5.4 Pro 是一个有趣的产品设计——它不是一个不同的模型架构，而是同一个 GPT-5.4 配以更多的推理计算资源。仅通过 Responses API 提供，不支持传统 Chat Completions。

定价含义：

输入 $30/MTok 是旗舰版的 12 倍，输出$ 180/MTok 也是 12 倍
长上下文模式进一步翻倍：输入 $60/MTok，输出$ 270/MTok
这意味着 Pro 处理一个完整 1M 上下文请求的成本约为 $60（仅输入），输出 128K token 则需$ 23,040

使用逻辑： Pro 不是用来替代旗舰版的日常选择。它的定位更像是”遇到旗舰版搞不定的硬问题时的升级选项”——数学推理、复杂代码调试、多步法律分析等需要模型”多想一会儿”的场景。

产品策略对标： 这与 Anthropic 的 Claude Opus 策略类似——不是做一个全场景最优模型，而是在高端场景上提供溢价选项。区别在于 OpenAI 选择在同一模型家族内做算力分层，而 Anthropic 通过不同的模型名称（Sonnet vs Opus）来区分。

GPT-5.4 Mini：真正的主力选手

定位： “Strongest mini model yet for coding, computer use, and subagents”

从 OpenAI 的产品描述可以看出，Mini 才是他们预期中 API 调用量最大的模型。它继承了 5.4 级的核心能力（包括 Computer Use 和 Tool Search），但上下文窗口收缩到 400K，延迟更低，成本仅为旗舰版的 30%。

关键规格：

输入 $0.75/MTok，输出$ 4.50/MTok
缓存输入 $0.075/MTok
400K 上下文 + 128K 输出
完整支持 Computer Use、Tool Search、Compaction

市场定位： Mini 的价格和能力组合直接对标 Claude Sonnet 4.6 和 Gemini 3 Flash——这是目前 API 市场上竞争最激烈的价格带。

产品逻辑： 大多数 Agent 工作流不需要 1M 上下文，400K 对 90% 的实际场景已经足够。Mini 以 30% 的成本提供 80-90% 的旗舰能力，是多 Agent 系统中 Sub-Agent 的理想选择。

GPT-5.4 Nano：极致的成本-速度优化

定位： “Cheapest GPT-5.4-class model for simple high-volume tasks”

Nano 是矩阵中最”克制”的成员。它砍掉了 Computer Use 和 Tool Search，只保留 Compaction 和基础的函数调用/搜索/MCP 能力，换来的是极低的成本。

关键规格：

输入 $0.20/MTok，输出$ 1.25/MTok
缓存输入 $0.02/MTok
400K 上下文 + 128K 输出
不支持 Computer Use、不支持 Tool Search
支持 Functions、Web Search、File Search、MCP

使用场景： 分类、摘要、格式转换、简单问答、数据提取——所有不需要复杂推理或工具交互的高频任务。

成本对比：

任务类型	使用旗舰版成本	使用 Nano 成本	节省
10K 输入 + 1K 输出	$0.04	$0.003	92%
100K 输入 + 10K 输出	$0.40	$0.033	92%
1M 输入 + 50K 输出 (旗舰) vs 400K + 50K (Nano)	$3.25	$0.143	96%

对于每天处理百万级请求的应用，Nano 的成本优势可能意味着每月数万甚至数十万美元的差异。

Sora API：从”能生成视频”到”视频生成基础设施”

3 月 12 日的 Sora API 更新是一次范围极广的功能扩展：

功能	详情
角色引用	可重用角色定义，跨视频保持一致性
生成时长	扩展到 20 秒
分辨率	1080p（Pro 版 $0.70/秒）
视频编辑	新增 `/v1/videos/edits` 端点（替代 remix，6 个月迁移期）
批量生成	支持 Batch API 批量处理

定价含义： 1080p Pro 版 $0.70/秒意味着生成一条 20 秒的 1080p 视频成本为$ 14。这个价格对于专业内容制作来说已经相当有竞争力——一条 20 秒的专业级视频素材在传统制作中的成本往往是这个数字的 100 倍以上。

产品演进轨迹： Sora 从最初的”演示性质的文本到视频生成”，经过 API 开放、分辨率提升、编辑功能引入，正在快速向”视频生成基础设施”演进。角色引用和批量 API 的加入意味着它开始具备支撑规模化视频生产工作流的能力。

竞争格局： 在视频生成 API 领域，Sora 的功能完整度（生成 + 编辑 + 角色一致性 + 批量处理 + 高分辨率）目前领先于 Runway Gen-4 和可灵 3.0。

Codex：200 万周活背后的增长飞轮

Codex 的增长数据可能是 3 月最被低估的信号：

指标	数值
周活跃用户	200 万+
3 个月增长	5 倍
月环比增长	70%+

增长飞轮解析：

200 万周活意味着 Codex 已经从”早期采用者工具”跨入”主流开发者工具”的门槛。70%+ 的月环比增长率如果持续，意味着：

4 月：约 340 万周活
5 月：约 580 万周活
6 月：约 980 万周活

当然，这种增速不可能无限持续。但即使增速放缓到 30-40%/月，年底 Codex 也可能触达千万级周活。

产业含义： 全球约有 2700-3000 万职业开发者。Codex 200 万周活意味着约 7% 的渗透率。如果加上 GitHub Copilot（基于 OpenAI 模型）的用户，OpenAI 系工具在开发者群体中的实际覆盖率可能已经超过 20%。

这与 GPT-5.4 Mini/Nano 的产品策略形成了清晰的商业闭环：Codex 带来开发者流量 -> 开发者构建 Agent 应用 -> 应用调用 GPT-5.4 系列 API -> API 收入增长。

横向竞争格局

旗舰模型三方对比

维度	GPT-5.4	Claude Opus 4.6	Gemini 3 Pro
上下文窗口	1M	1M	2M
最大输出	128K	128K	64K
Computer Use	内置（Responses API）	原生支持（先行者）	有限支持
工具动态加载	Tool Search	无等价功能	无等价功能
长对话压缩	Compaction（API 原生）	应用层实现	部分支持
知识截止	2025-08	2025 年中	2025 年中
发布节奏	极高（月 8 更新）	高	中

产品矩阵对比

层级	OpenAI	Anthropic	Google
旗舰	GPT-5.4	Claude Opus 4.6	Gemini 3 Pro
高算力	GPT-5.4 Pro	—	—
主力	GPT-5.4 Mini	Claude Sonnet 4.6	Gemini 3 Flash
轻量	GPT-5.4 Nano	Claude Haiku 4	Gemini 3.1 Flash-Lite
矩阵完整度	最完整（4 层）	3 层	3-4 层

关键观察：

OpenAI 的矩阵最完整：四层清晰分工，从 $0.20/MTok 到$ 30/MTok 覆盖全价格带
Anthropic 的长处在于先发：Computer Use 早于 OpenAI 18 个月，Claude Code 在 Agent 编程领域积累了深厚的开发者心智
Google 的优势在于上下文长度和生态：Gemini 3 Pro 的 2M 上下文仍是最长的，且 Google 拥有 Antigravity 等 Agent 开发平台
Tool Search 是 OpenAI 的独家差异化：截至目前，动态工具加载在竞品中没有等价功能

3 月 Changelog 全景

为了理解 GPT-5.4 发布的完整语境，有必要看看 OpenAI 3 月的全部重大更新：

日期	更新
3/5	GPT-5.4 旗舰版 + Pro 版发布
3/5	Computer Use、Tool Search、Compaction 功能上线
3/12	Sora API 扩展（1080p/20s/角色引用/编辑/批量）
3/13	GPT-5.4 图像编码器 bug 修复
3/16	gpt-5.3-chat-latest 模型标签更新
3/17	GPT-5.4 Mini 发布
3/17	GPT-5.4 Nano 发布

一个月内 8 次重大更新，平均每 4 天一次。这种密度传递的信号很明确：OpenAI 正在加速发布节奏，试图通过高频迭代拉开与竞争对手的产品丰富度差距。

风险与质疑

1. 快速迭代的代价

每 4 天一次重大更新对开发者来说是双刃剑。好处是能力持续进化，坏处是：

API 行为可能在版本间出现微妙变化
开发者需要频繁测试和适配
文档可能跟不上功能发布的节奏

GPT-5 系列从 5.0 到 5.4 仅约一年时间，5 次大版本迭代。对于正在生产环境中使用 GPT-5.2 或 5.3 的企业来说，这种节奏可能带来迁移疲劳。

2. GPT-5.4 相对 5.3 的实际提升幅度存疑

OpenAI 的 Changelog 和产品页面强调了新功能（Computer Use、Tool Search、Compaction），但对核心智能水平相对 5.3 的提升缺乏具体的 benchmark 数据。

一个关键问题是：5.4 的智能提升是来自模型本身，还是主要来自新的系统层功能？ 如果是后者，那 5.4 的价值更多在于”工程化包装”而非”智能跃迁”。

需要等待 SWE-Bench、AIME、GPQA 等标准基准的独立评测来回答这个问题。

3. Computer Use 的成熟度

尽管 Computer Use 作为内置功能上线，但 OpenAI 自己的安全建议——“在隔离环境中运行”、“对高影响操作保持人类在环”——说明这仍然是一个需要谨慎使用的功能。截图驱动的 UI 交互在以下场景中可能不稳定：

动态加载的单页应用
高度定制的企业内部系统
需要精确坐标操作的复杂 UI

Anthropic 在 Computer Use 上有 18 个月的先发优势和迭代经验，OpenAI 的实现在真实场景中的鲁棒性如何，还需要时间验证。

4. 定价策略的可持续性

GPT-5.4 Nano 的 $0.20/MTok 输入价格已经非常激进。如果 Anthropic 和 Google 跟进降价，整个行业的 API 利润率可能进一步压缩。对于一家刚完成$ 1220 亿融资、估值 $8520 亿的公司来说，能否在如此激进的定价下实现盈利预期，是投资者关心的核心问题。

判断

GPT-5.4 全系列发布标志着前沿 AI 模型竞争进入了一个新阶段：不再是”谁的旗舰最强”的单点比拼，而是”谁的产品矩阵最完整、开发者体验最好、生态飞轮转得最快”的系统性竞争。

OpenAI 3 月的表现证明了它在产品执行力上的优势——一个月内完成四层模型矩阵 + 三项新基建能力 + 视频 API 全面扩展 + Codex 爆发式增长，这种密度在整个行业中无出其右。

但也要看到几个结构性挑战：

快不等于好。高频迭代如果伴随着不够稳定的 API 行为，反而会损害开发者信任。
功能完整不等于体验最优。Anthropic 在 Computer Use、Agent 编程（Claude Code）等垂直方向上的深度积累，不是 OpenAI 一次发布就能追平的。
Codex 的增长虽然惊人，但面临 GitHub Copilot 的品牌替代风险——毕竟 Copilot 底层也是 OpenAI 的模型。

未来 3-6 个月最值得盯的几件事：

GPT-5.4 在标准 benchmark 上的独立评测结果
Computer Use 和 Tool Search 在真实生产环境中的稳定性反馈
Codex 的增长曲线是否出现拐点
Anthropic 和 Google 是否推出等价的 Tool Search 功能
GPT-5.5 是否在 2026 年 Q3 前出现——如果是，意味着 GPT-5 系列的迭代周期已缩短到约 2 个月

接下来该盯什么

短期（1-2 周）： SWE-Bench Verified、AIME 2025、GPQA Diamond 上 GPT-5.4 vs Claude Opus 4.6 vs Gemini 3 Pro 的独立评测
中期（1-2 月）： Computer Use 和 Tool Search 在企业 Agent 场景中的实际落地反馈；Codex 是否在 5 月达到 500 万周活
长期（3-6 月）： GPT-5.5 是否出现；OpenAI 的四层矩阵策略是否被 Anthropic 和 Google 复制；Sora API 是否开始产生可观的视频生成收入

速查卡
GPT-5.4 全系列规格一览
为什么这件事是 S 级
1. 这不是一次模型发布，是一次产品矩阵的完成
2. 三项新基建能力改变了 API 模型的使用范式
3. 发布节奏本身就是信号
技术深潜
Computer Use：截图驱动的 UI 交互
Tool Search：运行时延迟加载工具
Compaction：原生长对话压缩
四层模型矩阵深度分析
GPT-5.4 旗舰版：全能执行层
GPT-5.4 Pro：深度推理的算力溢价
GPT-5.4 Mini：真正的主力选手
GPT-5.4 Nano：极致的成本-速度优化
Sora API：从”能生成视频”到”视频生成基础设施”
Codex：200 万周活背后的增长飞轮
横向竞争格局
旗舰模型三方对比
产品矩阵对比
3 月 Changelog 全景
风险与质疑
1. 快速迭代的代价
2. GPT-5.4 相对 5.3 的实际提升幅度存疑
3. Computer Use 的成熟度
4. 定价策略的可持续性
判断
接下来该盯什么