Esc
输入关键词开始搜索
News

deep gpt54 full series.md

2026-04-02 · 深度解读 · 编辑:小小动


速查卡

维度内容
一句话总结OpenAI 在 3 月用 8 次重大更新完成了 GPT-5.4 四层产品矩阵布局,配合 Sora API 全面扩展和 Codex 爆发式增长,打出了自 GPT-4 以来最密集的产品攻势
大白话版OpenAI 一个月内一口气推出了旗舰、高算力、轻量、超轻量四款 GPT-5.4 模型,从最聪明到最便宜全覆盖,还让 AI 学会了操作电脑界面、按需装载工具、自动压缩长对话
核心数字4 款模型 / 1M token 上下文 / 128K 输出 / Codex 200万周活(3月5倍增长) / Sora 1080p 20s / 3月8次重大更新
影响评级S — GPT-5 系列第四次迭代完成全产品线布局,标志着前沿模型竞争从”单点旗舰”进入”全矩阵覆盖”时代

GPT-5.4 全系列规格一览

GPT-5.4GPT-5.4 ProGPT-5.4 MiniGPT-5.4 Nano
发布日期3月5日3月5日3月17日3月17日
上下文窗口1,000,0001,000,000+400,000400,000
最大输出128,000128,000128,000128,000
输入价格$2.50/MTok$30.00/MTok$0.75/MTok$0.20/MTok
输出价格$15.00/MTok$180.00/MTok$4.50/MTok$1.25/MTok
缓存折扣90% off90% off90% off
Computer Use支持支持支持不支持
Tool Search支持支持支持不支持
Compaction支持支持支持支持
知识截止2025-08-312025-08-312025-08-312025-08-31
API 接口Chat + Responses仅 ResponsesChat + ResponsesChat + Responses
定位全能旗舰硬问题高算力高容量主力高频低成本

注:GPT-5.4 Pro 长上下文模式输入 60/MTok、输出60/MTok、输出 270/MTok。Batch 和 Flex 处理享标准价 50% 折扣。区域处理端点加收 10%。


为什么这件事是 S 级

1. 这不是一次模型发布,是一次产品矩阵的完成

GPT-5 系列自 2025 年中首发以来,经历了 5.0 -> 5.1 -> 5.2 -> 5.3 -> 5.4 共五次迭代。但之前的迭代更像是单点升级——更好的旗舰模型替换旧版。

GPT-5.4 不同。它第一次在同一代模型内同时铺开四个层级:

  • 旗舰层(GPT-5.4):最强智能,覆盖 Agent、编程、专业工作流
  • 高算力层(GPT-5.4 Pro):为难题投入更多计算,面向需要深度推理的场景
  • 主力层(GPT-5.4 Mini):5.4 级能力但更快更便宜,面向批量生产工作负载
  • 普惠层(GPT-5.4 Nano):极致速度和成本优化,面向简单高频任务

这意味着 OpenAI 不再只是在”做最聪明的模型”,而是在做覆盖整条价值链的模型产品组合。

2. 三项新基建能力改变了 API 模型的使用范式

1M 上下文窗口本身已经不算新闻(Claude Opus 4.6 也是 1M),但 GPT-5.4 的真正变化在于三个配套能力的组合:

  • Computer Use:让模型能操控图形界面
  • Tool Search:让工具按需加载而非全量注入
  • Compaction:让长对话原生压缩

这三者叠加的含义是:GPT-5.4 不只是一个更聪明的文本模型,而是一个面向长时间运行 Agent 场景设计的执行层。

3. 发布节奏本身就是信号

仅 3 月一个月,OpenAI Changelog 就记录了 8 次重大更新。这种密度在 OpenAI 历史上前所未有,也远超竞争对手。


技术深潜

Computer Use:截图驱动的 UI 交互

GPT-5.4 内置的 Computer Use 是 OpenAI 对 Anthropic 同名功能的直接回应。它的工作原理是一个视觉循环:

截图 → 模型分析界面状态 → 输出结构化操作指令 → 执行 → 新截图 → 循环

支持的操作类型:

操作说明
点击左键/中键/右键,指定坐标
输入向聚焦字段键入文本
快捷键Enter、Escape、方向键等特殊按键
鼠标移动移动光标但不点击
拖拽按住鼠标沿路径移动
滚动在指定位置执行滚轮操作
等待暂停执行等待界面响应
截屏主动请求视觉反馈

三种集成路径:

  1. 内置循环(Responses API):使用原生 computer 工具,最简单的集成方式
  2. 自定义工具:对接 Playwright、Selenium、VNC 或 MCP 自动化框架
  3. 代码执行:模型编写并运行脚本来操控 UI

与 Anthropic Computer Use 的关键差异:

Anthropic 是 Computer Use 的先行者(2024 年 10 月首次公开预览)。OpenAI 的实现在概念上非常接近——都是截图驱动的视觉循环——但在集成架构上有自己的设计:

维度OpenAI GPT-5.4Anthropic Claude
首次发布2026 年 3 月2024 年 10 月
API 位置Responses API 内置Tool Use 框架
集成选项内置循环 + 自定义工具 + 代码执行统一 Tool Use 接口
模型覆盖GPT-5.4、MiniClaude 系列
安全建议隔离浏览器/VM + 人在环沙盒环境 + 权限控制

OpenAI 的文档明确建议:“在隔离的浏览器或虚拟机中运行 Computer Use,对高影响操作保持人类在环,将页面内容视为不受信任的输入。” 这与 Anthropic 的安全立场高度一致——两家公司都认为 Computer Use 目前仍需要严格的安全边界。

Tool Search:运行时延迟加载工具

Tool Search 是 GPT-5.4 引入的一个真正的架构创新,而不仅仅是功能增强。

问题背景: 在传统的函数调用模式中,所有可用工具的定义都必须在请求时一次性注入上下文窗口。当工具数量多达数十甚至上百个时(在企业级 Agent 场景中这很常见),工具定义本身可能消耗数千甚至上万 token,造成:

  • 不必要的 token 消耗和成本
  • 上下文窗口被工具定义挤占,减少了留给实际对话和推理的空间
  • 首次推理延迟增加

Tool Search 的解法: 将工具定义标记为 defer_loading: true,模型在运行时根据需要动态搜索和加载相关工具。

请求时:只注入核心工具 + 延迟工具的命名空间描述

模型推理:判断需要哪些延迟工具

工具搜索:加载匹配的工具定义

继续推理:使用加载的工具完成任务

两种实现模式:

  1. 托管搜索(Hosted Tool Search):OpenAI 服务端处理工具发现。延迟工具在请求中声明,API 自动搜索并返回匹配子集。
  2. 客户端搜索(Client-Executed Tool Search):应用端控制工具发现。模型发出 tool_search_call,应用执行查找并通过 tool_search_output 返回结果。

缓存友好设计: Tool Search 将新加载的工具注入到上下文窗口的末尾而非开头,从而保留已有的模型缓存——这意味着动态加载工具不会导致之前的推理缓存失效。

最佳实践: OpenAI 建议将延迟函数按命名空间分组(每组不超过 10 个函数),并提供清晰的命名空间描述,以获得最优的 token 效率。

为什么这很重要: Tool Search 本质上是把”编译时链接”变成了”运行时动态链接”——一个在操作系统设计中早已成熟的思想,现在被引入了 LLM 工具调用架构。对于构建拥有大量工具的 Agent 系统,这可能显著降低成本和延迟。

Compaction:原生长对话压缩

Compaction 解决的是长时间运行 Agent 工作流中上下文无限增长的问题。

核心机制: 当对话的 token 数超过设定阈值时,Compaction 自动将历史上下文压缩为一个加密的、不可读的压缩项(compaction item),这个压缩项携带了关键的历史状态和推理信息,但使用的 token 数显著减少。

两种使用模式:

模式触发方式使用场景
服务端 Compaction自动触发(compact_threshold标准长对话
独立 Compact 端点显式调用 /responses/compact精细控制

服务端 Compaction 工作流:

  1. /responses 请求中设置 context_managementcompact_threshold 参数
  2. 当渲染 token 数超过阈值时,自动触发压缩
  3. 返回加密的 compaction item
  4. 后续请求中,可以丢弃 compaction item 之前的所有历史项

关键设计决策:

  • 压缩项是”不透明的,不供人类解读的”——这是有意为之的设计,避免了压缩信息被误用或篡改
  • 支持 ZDR(Zero Data Retention)模式,store=false 时完全兼容
  • 两种上下文链接方式:数组追加(stateless)和 previous_response_id(stateful)

与竞品的对比: Anthropic 的 Claude 系列目前没有公开的原生 Compaction 等价功能(长对话管理主要依赖应用层实现)。Google Gemini 3 Pro 有类似的上下文管理特性但实现细节不同。OpenAI 将 Compaction 作为 API 原生功能提供,降低了开发者自行实现长对话管理的复杂度。


四层模型矩阵深度分析

GPT-5.4 旗舰版:全能执行层

定位: “Best intelligence at scale for agentic, coding, and professional workflows”

GPT-5.4 旗舰版是整个系列的能力上限。1M token 上下文 + 128K 输出 + Computer Use + Tool Search + Compaction 的完整能力组合,使其成为目前商业 API 中功能最全面的单体模型之一。

定价分析:

  • 输入 2.50/MTok,输出2.50/MTok,输出 15.00/MTok
  • 缓存命中时输入仅 $0.25/MTok(90% 折扣)
  • 对比 GPT-5.3:价格带基本持平,能力显著升级
  • 对比 Claude Opus 4.6:价格区间接近,竞争直接

适用场景: 需要最强智能且预算充足的场景——复杂 Agent 编排、专业级代码生成、长文档分析、多工具协同任务。

GPT-5.4 Pro:深度推理的算力溢价

定位: 面向”tougher problems that benefit from more compute”

GPT-5.4 Pro 是一个有趣的产品设计——它不是一个不同的模型架构,而是同一个 GPT-5.4 配以更多的推理计算资源。仅通过 Responses API 提供,不支持传统 Chat Completions。

定价含义:

  • 输入 30/MTok是旗舰版的12倍,输出30/MTok 是旗舰版的 12 倍,输出 180/MTok 也是 12 倍
  • 长上下文模式进一步翻倍:输入 60/MTok,输出60/MTok,输出 270/MTok
  • 这意味着 Pro 处理一个完整 1M 上下文请求的成本约为 60(仅输入),输出128Ktoken则需60(仅输入),输出 128K token 则需 23,040

使用逻辑: Pro 不是用来替代旗舰版的日常选择。它的定位更像是”遇到旗舰版搞不定的硬问题时的升级选项”——数学推理、复杂代码调试、多步法律分析等需要模型”多想一会儿”的场景。

产品策略对标: 这与 Anthropic 的 Claude Opus 策略类似——不是做一个全场景最优模型,而是在高端场景上提供溢价选项。区别在于 OpenAI 选择在同一模型家族内做算力分层,而 Anthropic 通过不同的模型名称(Sonnet vs Opus)来区分。

GPT-5.4 Mini:真正的主力选手

定位: “Strongest mini model yet for coding, computer use, and subagents”

从 OpenAI 的产品描述可以看出,Mini 才是他们预期中 API 调用量最大的模型。它继承了 5.4 级的核心能力(包括 Computer Use 和 Tool Search),但上下文窗口收缩到 400K,延迟更低,成本仅为旗舰版的 30%。

关键规格:

  • 输入 0.75/MTok,输出0.75/MTok,输出 4.50/MTok
  • 缓存输入 $0.075/MTok
  • 400K 上下文 + 128K 输出
  • 完整支持 Computer Use、Tool Search、Compaction

市场定位: Mini 的价格和能力组合直接对标 Claude Sonnet 4.6 和 Gemini 3 Flash——这是目前 API 市场上竞争最激烈的价格带。

产品逻辑: 大多数 Agent 工作流不需要 1M 上下文,400K 对 90% 的实际场景已经足够。Mini 以 30% 的成本提供 80-90% 的旗舰能力,是多 Agent 系统中 Sub-Agent 的理想选择。

GPT-5.4 Nano:极致的成本-速度优化

定位: “Cheapest GPT-5.4-class model for simple high-volume tasks”

Nano 是矩阵中最”克制”的成员。它砍掉了 Computer Use 和 Tool Search,只保留 Compaction 和基础的函数调用/搜索/MCP 能力,换来的是极低的成本。

关键规格:

  • 输入 0.20/MTok,输出0.20/MTok,输出 1.25/MTok
  • 缓存输入 $0.02/MTok
  • 400K 上下文 + 128K 输出
  • 不支持 Computer Use、不支持 Tool Search
  • 支持 Functions、Web Search、File Search、MCP

使用场景: 分类、摘要、格式转换、简单问答、数据提取——所有不需要复杂推理或工具交互的高频任务。

成本对比:

任务类型使用旗舰版成本使用 Nano 成本节省
10K 输入 + 1K 输出$0.04$0.00392%
100K 输入 + 10K 输出$0.40$0.03392%
1M 输入 + 50K 输出 (旗舰) vs 400K + 50K (Nano)$3.25$0.14396%

对于每天处理百万级请求的应用,Nano 的成本优势可能意味着每月数万甚至数十万美元的差异。


Sora API:从”能生成视频”到”视频生成基础设施”

3 月 12 日的 Sora API 更新是一次范围极广的功能扩展:

功能详情
角色引用可重用角色定义,跨视频保持一致性
生成时长扩展到 20 秒
分辨率1080p(Pro 版 $0.70/秒)
视频编辑新增 /v1/videos/edits 端点(替代 remix,6 个月迁移期)
批量生成支持 Batch API 批量处理

定价含义: 1080p Pro 版 0.70/秒意味着生成一条20秒的1080p视频成本为0.70/秒意味着生成一条 20 秒的 1080p 视频成本为 14。这个价格对于专业内容制作来说已经相当有竞争力——一条 20 秒的专业级视频素材在传统制作中的成本往往是这个数字的 100 倍以上。

产品演进轨迹: Sora 从最初的”演示性质的文本到视频生成”,经过 API 开放、分辨率提升、编辑功能引入,正在快速向”视频生成基础设施”演进。角色引用和批量 API 的加入意味着它开始具备支撑规模化视频生产工作流的能力。

竞争格局: 在视频生成 API 领域,Sora 的功能完整度(生成 + 编辑 + 角色一致性 + 批量处理 + 高分辨率)目前领先于 Runway Gen-4 和可灵 3.0。


Codex:200 万周活背后的增长飞轮

Codex 的增长数据可能是 3 月最被低估的信号:

指标数值
周活跃用户200 万+
3 个月增长5 倍
月环比增长70%+

增长飞轮解析:

200 万周活意味着 Codex 已经从”早期采用者工具”跨入”主流开发者工具”的门槛。70%+ 的月环比增长率如果持续,意味着:

  • 4 月:约 340 万周活
  • 5 月:约 580 万周活
  • 6 月:约 980 万周活

当然,这种增速不可能无限持续。但即使增速放缓到 30-40%/月,年底 Codex 也可能触达千万级周活。

产业含义: 全球约有 2700-3000 万职业开发者。Codex 200 万周活意味着约 7% 的渗透率。如果加上 GitHub Copilot(基于 OpenAI 模型)的用户,OpenAI 系工具在开发者群体中的实际覆盖率可能已经超过 20%。

这与 GPT-5.4 Mini/Nano 的产品策略形成了清晰的商业闭环:Codex 带来开发者流量 -> 开发者构建 Agent 应用 -> 应用调用 GPT-5.4 系列 API -> API 收入增长。


横向竞争格局

旗舰模型三方对比

维度GPT-5.4Claude Opus 4.6Gemini 3 Pro
上下文窗口1M1M2M
最大输出128K128K64K
Computer Use内置(Responses API)原生支持(先行者)有限支持
工具动态加载Tool Search无等价功能无等价功能
长对话压缩Compaction(API 原生)应用层实现部分支持
知识截止2025-082025 年中2025 年中
发布节奏极高(月 8 更新)

产品矩阵对比

层级OpenAIAnthropicGoogle
旗舰GPT-5.4Claude Opus 4.6Gemini 3 Pro
高算力GPT-5.4 Pro
主力GPT-5.4 MiniClaude Sonnet 4.6Gemini 3 Flash
轻量GPT-5.4 NanoClaude Haiku 4Gemini 3.1 Flash-Lite
矩阵完整度最完整(4 层)3 层3-4 层

关键观察:

  1. OpenAI 的矩阵最完整:四层清晰分工,从 0.20/MTok0.20/MTok 到 30/MTok 覆盖全价格带
  2. Anthropic 的长处在于先发:Computer Use 早于 OpenAI 18 个月,Claude Code 在 Agent 编程领域积累了深厚的开发者心智
  3. Google 的优势在于上下文长度和生态:Gemini 3 Pro 的 2M 上下文仍是最长的,且 Google 拥有 Antigravity 等 Agent 开发平台
  4. Tool Search 是 OpenAI 的独家差异化:截至目前,动态工具加载在竞品中没有等价功能

3 月 Changelog 全景

为了理解 GPT-5.4 发布的完整语境,有必要看看 OpenAI 3 月的全部重大更新:

日期更新
3/5GPT-5.4 旗舰版 + Pro 版发布
3/5Computer Use、Tool Search、Compaction 功能上线
3/12Sora API 扩展(1080p/20s/角色引用/编辑/批量)
3/13GPT-5.4 图像编码器 bug 修复
3/16gpt-5.3-chat-latest 模型标签更新
3/17GPT-5.4 Mini 发布
3/17GPT-5.4 Nano 发布

一个月内 8 次重大更新,平均每 4 天一次。这种密度传递的信号很明确:OpenAI 正在加速发布节奏,试图通过高频迭代拉开与竞争对手的产品丰富度差距。


风险与质疑

1. 快速迭代的代价

每 4 天一次重大更新对开发者来说是双刃剑。好处是能力持续进化,坏处是:

  • API 行为可能在版本间出现微妙变化
  • 开发者需要频繁测试和适配
  • 文档可能跟不上功能发布的节奏

GPT-5 系列从 5.0 到 5.4 仅约一年时间,5 次大版本迭代。对于正在生产环境中使用 GPT-5.2 或 5.3 的企业来说,这种节奏可能带来迁移疲劳。

2. GPT-5.4 相对 5.3 的实际提升幅度存疑

OpenAI 的 Changelog 和产品页面强调了新功能(Computer Use、Tool Search、Compaction),但对核心智能水平相对 5.3 的提升缺乏具体的 benchmark 数据。

一个关键问题是:5.4 的智能提升是来自模型本身,还是主要来自新的系统层功能? 如果是后者,那 5.4 的价值更多在于”工程化包装”而非”智能跃迁”。

需要等待 SWE-Bench、AIME、GPQA 等标准基准的独立评测来回答这个问题。

3. Computer Use 的成熟度

尽管 Computer Use 作为内置功能上线,但 OpenAI 自己的安全建议——“在隔离环境中运行”、“对高影响操作保持人类在环”——说明这仍然是一个需要谨慎使用的功能。截图驱动的 UI 交互在以下场景中可能不稳定:

  • 动态加载的单页应用
  • 高度定制的企业内部系统
  • 需要精确坐标操作的复杂 UI

Anthropic 在 Computer Use 上有 18 个月的先发优势和迭代经验,OpenAI 的实现在真实场景中的鲁棒性如何,还需要时间验证。

4. 定价策略的可持续性

GPT-5.4 Nano 的 0.20/MTok输入价格已经非常激进。如果AnthropicGoogle跟进降价,整个行业的API利润率可能进一步压缩。对于一家刚完成0.20/MTok 输入价格已经非常激进。如果 Anthropic 和 Google 跟进降价,整个行业的 API 利润率可能进一步压缩。对于一家刚完成 1220 亿融资、估值 $8520 亿的公司来说,能否在如此激进的定价下实现盈利预期,是投资者关心的核心问题。


判断

GPT-5.4 全系列发布标志着前沿 AI 模型竞争进入了一个新阶段:不再是”谁的旗舰最强”的单点比拼,而是”谁的产品矩阵最完整、开发者体验最好、生态飞轮转得最快”的系统性竞争。

OpenAI 3 月的表现证明了它在产品执行力上的优势——一个月内完成四层模型矩阵 + 三项新基建能力 + 视频 API 全面扩展 + Codex 爆发式增长,这种密度在整个行业中无出其右。

但也要看到几个结构性挑战:

  1. 快不等于好。高频迭代如果伴随着不够稳定的 API 行为,反而会损害开发者信任。
  2. 功能完整不等于体验最优。Anthropic 在 Computer Use、Agent 编程(Claude Code)等垂直方向上的深度积累,不是 OpenAI 一次发布就能追平的。
  3. Codex 的增长虽然惊人,但面临 GitHub Copilot 的品牌替代风险——毕竟 Copilot 底层也是 OpenAI 的模型。

未来 3-6 个月最值得盯的几件事:

  1. GPT-5.4 在标准 benchmark 上的独立评测结果
  2. Computer Use 和 Tool Search 在真实生产环境中的稳定性反馈
  3. Codex 的增长曲线是否出现拐点
  4. Anthropic 和 Google 是否推出等价的 Tool Search 功能
  5. GPT-5.5 是否在 2026 年 Q3 前出现——如果是,意味着 GPT-5 系列的迭代周期已缩短到约 2 个月

接下来该盯什么

  1. 短期(1-2 周): SWE-Bench Verified、AIME 2025、GPQA Diamond 上 GPT-5.4 vs Claude Opus 4.6 vs Gemini 3 Pro 的独立评测
  2. 中期(1-2 月): Computer Use 和 Tool Search 在企业 Agent 场景中的实际落地反馈;Codex 是否在 5 月达到 500 万周活
  3. 长期(3-6 月): GPT-5.5 是否出现;OpenAI 的四层矩阵策略是否被 Anthropic 和 Google 复制;Sora API 是否开始产生可观的视频生成收入