News

Introducing GPT-5.5

原文链接：https://openai.com/index/introducing-gpt-5-5/ 系统卡：https://openai.com/index/gpt-5-5-system-card/ 生物安全计划：https://openai.com/index/gpt-5-5-bio-bug-bounty/ 来源：OpenAI 发布日期：2026-04-23 取文说明：openai.com 直连与浏览器会命中 Cloudflare challenge；本文基于 r.jina.ai 成功抓取并完整阅读上述 3 篇 OpenAI 官方正文，不再只依赖 X 帖摘要。

速查卡

项目	内容
一句话总结	GPT-5.5 的核心变化不是“又强了一点”，而是 OpenAI 明确把旗舰模型卖点切成了“更少人盯、更会用工具、更能把长任务做完”。
大白话版	以前你得一步步带着模型干活；现在 OpenAI 想卖的是一个更像同事的东西：你把一团乱麻交过去，它能自己规划、查资料、跑工具、回头检查，然后尽量把整件事做完。
最关键数字	Terminal-Bench 2.0 82.7%；SWE-Bench Pro 58.6%；Expert-SWE 73.1%；GDPval 84.9%；OSWorld-Verified 78.7%；BrowseComp 84.4%；Tau2-bench Telecom 98.0%；Codex 上下文 400K；API 上下文 1M；API 定价 $5/$ 30 per 1M input/output tokens。
价值评级	A — 这是一次明确的 agent 平台总升级，而不只是模型迭代。
适合谁看	做 coding agent、企业工作流 agent、电脑使用代理、长任务编排、模型评测与安全治理的人。
本文核心判断	GPT-5.5 标志着 OpenAI 正把旗舰模型的竞争焦点，从“回答更聪明”改写成“执行更完整 + 监督更省 + 部署更经济”。

为什么这次发布值得单独拆

OpenAI 这次最值得注意的，不是 GPT-5.5 这个版本号，而是它选择怎样定义“更强”。

如果沿用旧叙事，它完全可以把 GPT-5.5 讲成一轮常规能力升级：更强推理、更高 benchmark、更低幻觉。但 OpenAI 官方正文一开头就把主轴钉死在另一套语言上：

understand what you’re trying to do faster
carry more of the work itself
use tools
check its work
keep going until a task is finished
little micromanagement
low latency
fewer tokens

这已经不是聊天模型的语言，而是 agent 系统的语言。

也就是说，OpenAI 正在公开承认：2026 年最重要的竞争，不再只是“谁答得更聪明”，而是“谁更像一个可托付执行链条的工作模型”。

OpenAI 官方到底发布了什么

1. GPT-5.5 是“real work and agents”优先的新旗舰

官方原文第一段写得非常直白：GPT-5.5 是 “our smartest and most intuitive to use model yet”，并强调它擅长：

写代码与调试代码
在线研究
数据分析
生成文档和表格
操作软件
跨工具移动直到任务完成

这里最关键的不是列举场景，而是 OpenAI 对能力结构的描述：

更早理解任务意图
更少依赖用户逐步微操
更会调用工具
更会自查
更能在长链条任务里坚持到完成

这五点拼起来，正好构成了一个成熟 agent loop 的核心：理解目标、规划步骤、调用外部能力、校验中间结果、持续推进到结束。

2. OpenAI 把“监督成本”第一次摆到和智能同等重要的位置

如果只看模型名字，很多人会以为这还是常规迭代；但官方整篇文章的真正亮点在于，它反复强调的不是单点智力，而是使用成本结构。

OpenAI 明确说：

GPT-5.5 matches GPT-5.4 per-token latency in real-world serving
在同类 Codex 任务里使用 significantly fewer tokens
larger, more capable models are often slower to serve，但 GPT-5.5 尽量没有让速度为能力买单

这说明 OpenAI 对旗舰模型的目标函数已经变了。

过去旗舰模型更像“能力最大化”的产物；现在 GPT-5.5 更像“能力 × 速度 × token 效率 × 监督负担”联合优化后的结果。真正想卖给企业和高频用户的，不是更华丽的回答，而是：

少返工
少 retries
少 prompt 微操
少 token 浪费
更稳定地走完整个执行过程

benchmark 信号：OpenAI 想证明它不只会聊天

一、最硬的主战场是 coding agent

官方文章把 coding 摆在了第一优先级，而且给出了三组非常明确的 benchmark：

评测	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
SWE-Bench Pro (Public)	58.6%	57.7%	64.3%	54.2%
Expert-SWE (Internal)	73.1%	68.5%	—	—

这里最值得注意的是 Terminal-Bench 2.0。因为这个 benchmark 不测“会不会写一个函数”，而是测复杂命令行工作流中的规划、迭代和工具协调。GPT-5.5 从 75.1% 拉到 82.7%，这说明它真正增强的是执行链条，而不是只增强了单步代码生成。

SWE-Bench Pro 上 58.6% 只比 GPT-5.4 提升 0.9 个点，看起来没有特别夸张，但 OpenAI 强调的是：它在这些任务里能用更少 token 完成，而且 single pass end-to-end resolve 的能力更强。对真实生产使用来说，这往往比纸面涨点更值钱。

二、第二战场是知识工作与电脑使用

OpenAI 还给出了一组更贴近企业办公与 computer-use 的指标：

评测	GPT-5.5	GPT-5.4	GPT-5.5 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GDPval	84.9%	83.0%	82.3%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	—	78.0%	—
BrowseComp	84.4%	82.7%	90.1%	79.3%	85.9%
Toolathlon	55.6%	54.6%	—	—	48.8%
Tau2-bench Telecom	98.0%	92.8%	—	—	—

这些指标连起来看，OpenAI 的策略很清楚：

GDPval 证明它能做职业化知识工作
OSWorld-Verified 证明它能更稳地操作真实电脑环境
BrowseComp 和 Toolathlon 证明它不是纸上谈兵，而是真会找资料、会调工具
Tau2-bench Telecom 这种任务流 benchmark 则更像企业工作流的缩略图

这套指标组合说明 OpenAI 正在把 GPT-5.5 定义成“可工作的计算机使用模型”，而不是“能回答问题的模型”。

三、学术与科学研究被当成第三增长曲线

OpenAI 还把 scientific research 明确写成 GPT-5.5 的重点突破方向之一。官方给出的公开结果包括：

评测	GPT-5.5	GPT-5.4	GPT-5.5 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GeneBench	25.0%	19.0%	33.2%	—	—
BixBench	80.5%	74.0%	—	—	—
FrontierMath Tier 1-3	51.7%	47.6%	52.4%	43.8%	36.9%
FrontierMath Tier 4	35.4%	27.1%	39.6%	22.9%	16.7%

OpenAI 在正文里用的不是“答题更强”，而是“persisting across the loop of scientific work”。这很关键。它想强调的不是能不能给出一个漂亮结论，而是能不能：

探索问题
收集证据
检查假设
解释结果
决定下一步实验

这本质上仍然是 agent 能力，只不过场景从 coding 和企业工作流扩展到了科研。

产品与商业层：OpenAI 在卖一整套 agent 入口

1. ChatGPT、Codex、API 三个入口被统一成同一叙事

官方这次没有把 GPT-5.5 局限在单一产品中，而是同时铺向三个面：

ChatGPT：GPT-5.5 Thinking
ChatGPT：GPT-5.5 Pro
Codex：GPT-5.5
API：即将上线 gpt-5.5 与 gpt-5.5-pro

其中最值得注意的是 Codex 的定位。OpenAI 明确写到：

GPT-5.5 在 Codex 中可用于 implementation、refactor、debugging、testing、validation
Codex 中 GPT-5.5 可处理 documents、spreadsheets、slide presentations
Codex 的 computer use skill 正把模型推向真正使用电脑

这等于把 Codex 从“代码工具”扩成了“工作执行界面”。

2. 上下文窗口与定价都在为 agent 化服务

官方给出的关键产品参数是：

Codex 中 GPT-5.5：400K context window
API 中 GPT-5.5：1M context window
API 价格： $5 / 1M input tokens，$ 30 / 1M output tokens
gpt-5.5-pro： $30 / 1M input，$ 180 / 1M output
Fast mode：1.5x 更快，成本 2.5x

这说明 OpenAI 正在围绕不同 agent 场景分层：

普通生产工作：GPT-5.5
更高精度、更高容忍成本的任务：GPT-5.5 Pro
需要更大吞吐与更高交互速度的场景：Fast mode

这里最重要的是上下文窗口。400K 和 1M 并不只是数字炫耀，而是对长任务、多文档、多工具、持续上下文 agent 的直接支持。没有长上下文，你很难把“任务做到完成”这套叙事真正落到复杂工作流里。

安全侧：OpenAI 为什么同时发 system card 和 bio bug bounty

1. GPT-5.5 的发布方式本身就在说明风险边界

OpenAI 不是只发了一篇产品博文，而是同步发了：

GPT-5.5 System Card
GPT-5.5 Bio Bug Bounty

这说明它对外想传达的不是“我们有更强模型了”，而是“我们知道这次能力提升已经碰到需要额外治理的边界”。

System Card 里最关键的两句是：

GPT-5.5 and GPT-5.5 Pro were evaluated under the Preparedness Framework
biological/chemical and cybersecurity capabilities of GPT-5.5 are treated as High

也就是说，OpenAI 认为 GPT-5.5 虽未达到 Critical cyber capability level，但在 cyber 与 bio 两条线上都已经上到了需要更强缓释措施的 High 档。

2. Bio Bug Bounty 把安全测试从“评估”推进到“对抗性竞赛”

OpenAI 同步开放了 GPT-5.5 的 Bio Bug Bounty，重点信息包括：

scope：GPT-5.5 in Codex Desktop only
challenge：寻找一个 universal jailbreak，绕过五道 bio safety challenge
reward：首个全通用 jailbreak 奖金 $25,000
时间：4 月 23 日开放申请，6 月 22 日截止报名，4 月 28 日开始测试，7 月 27 日结束
所有 prompts、completions、findings 受 NDA 保护

这意味着 OpenAI 已不满足于内部红队和标准评估，而是开始主动邀请外部 bio / red-team 研究者对其 safeguard 做通用越狱攻击测试。这是 frontier 模型治理进入“持续攻防”阶段的明确信号。

3. 网络安全侧则强调 trusted access，而不是一刀切收紧

官方正文还专门强调：

GPT-5.5 的 cyber 能力较 GPT-5.4 又上了一阶
会部署 stricter classifiers for potential cyber risk
但同时通过 Trusted Access for Cyber 给验证过的防御方更少限制

这套思路不是“因为风险高就全封”，而是“提高默认防护，同时给可信防御场景更强能力”。这很符合 agent 模型时代的现实：一味收紧会直接伤害正当高价值工作流。

从产品哲学看，GPT-5.5 真正变了什么

1. 从“回答引擎”转向“任务推进引擎”

GPT-5.5 整体叙事里的最大变化，是 OpenAI 不再主要围绕问答能力定义旗舰模型，而是围绕任务推进能力定义旗舰模型。

这会带来三个行业级后果：

benchmark 结构会继续从纯智力测试转向 workflow 测试
模型价值会更多由监督成本、完成率、效率决定
工具调用、长期上下文和电脑操作会从附属功能变成主能力

2. OpenAI 正在把“模型层、执行层、分发层”绑定

GPT-5.5 本身是模型层；Codex、ChatGPT 和 API 是分发层；computer use、tool use、long context 和 trusted access 是执行层与治理层。OpenAI 这次不是在卖一个单点技术，而是在把三层拼起来卖：

更强 agent 模型
更完整 agent 入口
更现实 agent 治理

3. 对竞争对手的直接压力是什么

这次发布给 Anthropic、Google、GitHub、Cursor、以及中国大厂都提了同一类问题：

你的模型到底能不能把长任务做完？
你是不是还要用户一直盯着？
你的 token 成本和延迟能不能撑住高频使用？
你有没有 system card 之外的持续攻防治理机制？

以后再只讲“模型更聪明”会越来越不够，因为 OpenAI 已经把市场语言切到了“模型是否像一个能干活的协作者”。

批判性分析

1. OpenAI 的证据里，仍有不少 internal eval 与精选案例

虽然这次官方材料已经比 X 帖完整得多，但仍要看到它的局限：

Expert-SWE、investment banking modeling、部分 cyber/coding 结果是 internal eval
大量客户证言来自精选 early testers
system card 页面公开信息相对简短，很多安全细节仍在外链 PDF / deployment safety 页面

所以这次发布已经足够支撑深读，但仍不能把所有数字都当成完全等权的第三方结论。

2. GPT-5.5 在部分学术 benchmark 上并非全线碾压

例如 Humanity’s Last Exam 上，GPT-5.5 并没有压过所有竞争对手；GPQA Diamond 也不是绝对领先。这进一步说明 OpenAI 已经有意把主叙事从“学术考试王者”转向“现实工作王者”。

这不是缺点，但它意味着市场以后要用不同尺子看它。

3. 最值得观察的不是首日分数，而是 API 落地后的真实经济性

OpenAI 反复强调更少 token、更低 micromanagement、更高完成率。真正的商业检验不在首发文章，而在接下来两件事：

API 上线后，开发者在真实工作流里能否用更少 retries 达到更高完成率
企业是否愿意为 GPT-5.5 Pro 的高价位，持续支付精度溢价

如果这两点成立，GPT-5.5 就不是一次短期营销胜利，而会成为 agent 商业化的重要拐点。

结论

GPT-5.5 最重要的意义，不是 OpenAI 又出了一版更强模型，而是它把旗舰模型的价值函数彻底改写了。

从这次官方材料看，OpenAI 真正想让市场记住的已经不是：

它更会答题
它更会写一段代码
它更会推理一步

而是：

它能理解复杂目标
它能更自然地使用工具
它能更长时间保持在任务上
它能减少人工微操
它能在速度和成本不炸的情况下，把更多工作一路推到完成

这就是 GPT-5.5 的核心：OpenAI 正在把“模型竞争”推进到“agent 完成率竞争”。

对 Lighthouse 来说，这条不是普通模型新闻，而是一个明确信号：前沿模型公司的主战场，正在从静态智力，转向执行型智能。

速查卡
为什么这次发布值得单独拆
OpenAI 官方到底发布了什么
1. GPT-5.5 是“real work and agents”优先的新旗舰
2. OpenAI 把“监督成本”第一次摆到和智能同等重要的位置
benchmark 信号：OpenAI 想证明它不只会聊天
一、最硬的主战场是 coding agent
二、第二战场是知识工作与电脑使用
三、学术与科学研究被当成第三增长曲线
产品与商业层：OpenAI 在卖一整套 agent 入口
1. ChatGPT、Codex、API 三个入口被统一成同一叙事
2. 上下文窗口与定价都在为 agent 化服务
安全侧：OpenAI 为什么同时发 system card 和 bio bug bounty
1. GPT-5.5 的发布方式本身就在说明风险边界
2. Bio Bug Bounty 把安全测试从“评估”推进到“对抗性竞赛”
3. 网络安全侧则强调 trusted access，而不是一刀切收紧
从产品哲学看，GPT-5.5 真正变了什么
1. 从“回答引擎”转向“任务推进引擎”
2. OpenAI 正在把“模型层、执行层、分发层”绑定
3. 对竞争对手的直接压力是什么
批判性分析
1. OpenAI 的证据里，仍有不少 internal eval 与精选案例
2. GPT-5.5 在部分学术 benchmark 上并非全线碾压
3. 最值得观察的不是首日分数，而是 API 落地后的真实经济性
结论