Esc
输入关键词开始搜索
News

Introducing GPT-5.5

Introducing GPT-5.5

原文链接:https://openai.com/index/introducing-gpt-5-5/ 系统卡:https://openai.com/index/gpt-5-5-system-card/ 生物安全计划:https://openai.com/index/gpt-5-5-bio-bug-bounty/ 来源:OpenAI 发布日期:2026-04-23 取文说明:openai.com 直连与浏览器会命中 Cloudflare challenge;本文基于 r.jina.ai 成功抓取并完整阅读上述 3 篇 OpenAI 官方正文,不再只依赖 X 帖摘要。

速查卡

项目内容
一句话总结GPT-5.5 的核心变化不是“又强了一点”,而是 OpenAI 明确把旗舰模型卖点切成了“更少人盯、更会用工具、更能把长任务做完”。
大白话版以前你得一步步带着模型干活;现在 OpenAI 想卖的是一个更像同事的东西:你把一团乱麻交过去,它能自己规划、查资料、跑工具、回头检查,然后尽量把整件事做完。
最关键数字Terminal-Bench 2.0 82.7%;SWE-Bench Pro 58.6%;Expert-SWE 73.1%;GDPval 84.9%;OSWorld-Verified 78.7%;BrowseComp 84.4%;Tau2-bench Telecom 98.0%;Codex 上下文 400K;API 上下文 1M;API 定价 5/5/30 per 1M input/output tokens。
价值评级A — 这是一次明确的 agent 平台总升级,而不只是模型迭代。
适合谁看做 coding agent、企业工作流 agent、电脑使用代理、长任务编排、模型评测与安全治理的人。
本文核心判断GPT-5.5 标志着 OpenAI 正把旗舰模型的竞争焦点,从“回答更聪明”改写成“执行更完整 + 监督更省 + 部署更经济”。

为什么这次发布值得单独拆

OpenAI 这次最值得注意的,不是 GPT-5.5 这个版本号,而是它选择怎样定义“更强”。

如果沿用旧叙事,它完全可以把 GPT-5.5 讲成一轮常规能力升级:更强推理、更高 benchmark、更低幻觉。但 OpenAI 官方正文一开头就把主轴钉死在另一套语言上:

  • understand what you’re trying to do faster
  • carry more of the work itself
  • use tools
  • check its work
  • keep going until a task is finished
  • little micromanagement
  • low latency
  • fewer tokens

这已经不是聊天模型的语言,而是 agent 系统的语言。

也就是说,OpenAI 正在公开承认:2026 年最重要的竞争,不再只是“谁答得更聪明”,而是“谁更像一个可托付执行链条的工作模型”。

OpenAI 官方到底发布了什么

1. GPT-5.5 是“real work and agents”优先的新旗舰

官方原文第一段写得非常直白:GPT-5.5 是 “our smartest and most intuitive to use model yet”,并强调它擅长:

  • 写代码与调试代码
  • 在线研究
  • 数据分析
  • 生成文档和表格
  • 操作软件
  • 跨工具移动直到任务完成

这里最关键的不是列举场景,而是 OpenAI 对能力结构的描述:

  1. 更早理解任务意图
  2. 更少依赖用户逐步微操
  3. 更会调用工具
  4. 更会自查
  5. 更能在长链条任务里坚持到完成

这五点拼起来,正好构成了一个成熟 agent loop 的核心:理解目标、规划步骤、调用外部能力、校验中间结果、持续推进到结束。

2. OpenAI 把“监督成本”第一次摆到和智能同等重要的位置

如果只看模型名字,很多人会以为这还是常规迭代;但官方整篇文章的真正亮点在于,它反复强调的不是单点智力,而是使用成本结构。

OpenAI 明确说:

  • GPT-5.5 matches GPT-5.4 per-token latency in real-world serving
  • 在同类 Codex 任务里使用 significantly fewer tokens
  • larger, more capable models are often slower to serve,但 GPT-5.5 尽量没有让速度为能力买单

这说明 OpenAI 对旗舰模型的目标函数已经变了。

过去旗舰模型更像“能力最大化”的产物;现在 GPT-5.5 更像“能力 × 速度 × token 效率 × 监督负担”联合优化后的结果。真正想卖给企业和高频用户的,不是更华丽的回答,而是:

  • 少返工
  • 少 retries
  • 少 prompt 微操
  • 少 token 浪费
  • 更稳定地走完整个执行过程

benchmark 信号:OpenAI 想证明它不只会聊天

一、最硬的主战场是 coding agent

官方文章把 coding 摆在了第一优先级,而且给出了三组非常明确的 benchmark:

评测GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
SWE-Bench Pro (Public)58.6%57.7%64.3%54.2%
Expert-SWE (Internal)73.1%68.5%

这里最值得注意的是 Terminal-Bench 2.0。因为这个 benchmark 不测“会不会写一个函数”,而是测复杂命令行工作流中的规划、迭代和工具协调。GPT-5.5 从 75.1% 拉到 82.7%,这说明它真正增强的是执行链条,而不是只增强了单步代码生成。

SWE-Bench Pro 上 58.6% 只比 GPT-5.4 提升 0.9 个点,看起来没有特别夸张,但 OpenAI 强调的是:它在这些任务里能用更少 token 完成,而且 single pass end-to-end resolve 的能力更强。对真实生产使用来说,这往往比纸面涨点更值钱。

二、第二战场是知识工作与电脑使用

OpenAI 还给出了一组更贴近企业办公与 computer-use 的指标:

评测GPT-5.5GPT-5.4GPT-5.5 ProClaude Opus 4.7Gemini 3.1 Pro
GDPval84.9%83.0%82.3%80.3%67.3%
OSWorld-Verified78.7%75.0%78.0%
BrowseComp84.4%82.7%90.1%79.3%85.9%
Toolathlon55.6%54.6%48.8%
Tau2-bench Telecom98.0%92.8%

这些指标连起来看,OpenAI 的策略很清楚:

  • GDPval 证明它能做职业化知识工作
  • OSWorld-Verified 证明它能更稳地操作真实电脑环境
  • BrowseComp 和 Toolathlon 证明它不是纸上谈兵,而是真会找资料、会调工具
  • Tau2-bench Telecom 这种任务流 benchmark 则更像企业工作流的缩略图

这套指标组合说明 OpenAI 正在把 GPT-5.5 定义成“可工作的计算机使用模型”,而不是“能回答问题的模型”。

三、学术与科学研究被当成第三增长曲线

OpenAI 还把 scientific research 明确写成 GPT-5.5 的重点突破方向之一。官方给出的公开结果包括:

评测GPT-5.5GPT-5.4GPT-5.5 ProClaude Opus 4.7Gemini 3.1 Pro
GeneBench25.0%19.0%33.2%
BixBench80.5%74.0%
FrontierMath Tier 1-351.7%47.6%52.4%43.8%36.9%
FrontierMath Tier 435.4%27.1%39.6%22.9%16.7%

OpenAI 在正文里用的不是“答题更强”,而是“persisting across the loop of scientific work”。这很关键。它想强调的不是能不能给出一个漂亮结论,而是能不能:

  • 探索问题
  • 收集证据
  • 检查假设
  • 解释结果
  • 决定下一步实验

这本质上仍然是 agent 能力,只不过场景从 coding 和企业工作流扩展到了科研。

产品与商业层:OpenAI 在卖一整套 agent 入口

1. ChatGPT、Codex、API 三个入口被统一成同一叙事

官方这次没有把 GPT-5.5 局限在单一产品中,而是同时铺向三个面:

  • ChatGPT:GPT-5.5 Thinking
  • ChatGPT:GPT-5.5 Pro
  • Codex:GPT-5.5
  • API:即将上线 gpt-5.5 与 gpt-5.5-pro

其中最值得注意的是 Codex 的定位。OpenAI 明确写到:

  • GPT-5.5 在 Codex 中可用于 implementation、refactor、debugging、testing、validation
  • Codex 中 GPT-5.5 可处理 documents、spreadsheets、slide presentations
  • Codex 的 computer use skill 正把模型推向真正使用电脑

这等于把 Codex 从“代码工具”扩成了“工作执行界面”。

2. 上下文窗口与定价都在为 agent 化服务

官方给出的关键产品参数是:

  • Codex 中 GPT-5.5:400K context window
  • API 中 GPT-5.5:1M context window
  • API 价格:5/1Minputtokens5 / 1M input tokens,30 / 1M output tokens
  • gpt-5.5-pro:30/1Minput30 / 1M input,180 / 1M output
  • Fast mode:1.5x 更快,成本 2.5x

这说明 OpenAI 正在围绕不同 agent 场景分层:

  • 普通生产工作:GPT-5.5
  • 更高精度、更高容忍成本的任务:GPT-5.5 Pro
  • 需要更大吞吐与更高交互速度的场景:Fast mode

这里最重要的是上下文窗口。400K 和 1M 并不只是数字炫耀,而是对长任务、多文档、多工具、持续上下文 agent 的直接支持。没有长上下文,你很难把“任务做到完成”这套叙事真正落到复杂工作流里。

安全侧:OpenAI 为什么同时发 system card 和 bio bug bounty

1. GPT-5.5 的发布方式本身就在说明风险边界

OpenAI 不是只发了一篇产品博文,而是同步发了:

  • GPT-5.5 System Card
  • GPT-5.5 Bio Bug Bounty

这说明它对外想传达的不是“我们有更强模型了”,而是“我们知道这次能力提升已经碰到需要额外治理的边界”。

System Card 里最关键的两句是:

  • GPT-5.5 and GPT-5.5 Pro were evaluated under the Preparedness Framework
  • biological/chemical and cybersecurity capabilities of GPT-5.5 are treated as High

也就是说,OpenAI 认为 GPT-5.5 虽未达到 Critical cyber capability level,但在 cyber 与 bio 两条线上都已经上到了需要更强缓释措施的 High 档。

2. Bio Bug Bounty 把安全测试从“评估”推进到“对抗性竞赛”

OpenAI 同步开放了 GPT-5.5 的 Bio Bug Bounty,重点信息包括:

  • scope:GPT-5.5 in Codex Desktop only
  • challenge:寻找一个 universal jailbreak,绕过五道 bio safety challenge
  • reward:首个全通用 jailbreak 奖金 $25,000
  • 时间:4 月 23 日开放申请,6 月 22 日截止报名,4 月 28 日开始测试,7 月 27 日结束
  • 所有 prompts、completions、findings 受 NDA 保护

这意味着 OpenAI 已不满足于内部红队和标准评估,而是开始主动邀请外部 bio / red-team 研究者对其 safeguard 做通用越狱攻击测试。这是 frontier 模型治理进入“持续攻防”阶段的明确信号。

3. 网络安全侧则强调 trusted access,而不是一刀切收紧

官方正文还专门强调:

  • GPT-5.5 的 cyber 能力较 GPT-5.4 又上了一阶
  • 会部署 stricter classifiers for potential cyber risk
  • 但同时通过 Trusted Access for Cyber 给验证过的防御方更少限制

这套思路不是“因为风险高就全封”,而是“提高默认防护,同时给可信防御场景更强能力”。这很符合 agent 模型时代的现实:一味收紧会直接伤害正当高价值工作流。

从产品哲学看,GPT-5.5 真正变了什么

1. 从“回答引擎”转向“任务推进引擎”

GPT-5.5 整体叙事里的最大变化,是 OpenAI 不再主要围绕问答能力定义旗舰模型,而是围绕任务推进能力定义旗舰模型。

这会带来三个行业级后果:

  1. benchmark 结构会继续从纯智力测试转向 workflow 测试
  2. 模型价值会更多由监督成本、完成率、效率决定
  3. 工具调用、长期上下文和电脑操作会从附属功能变成主能力

2. OpenAI 正在把“模型层、执行层、分发层”绑定

GPT-5.5 本身是模型层;Codex、ChatGPT 和 API 是分发层;computer use、tool use、long context 和 trusted access 是执行层与治理层。OpenAI 这次不是在卖一个单点技术,而是在把三层拼起来卖:

  • 更强 agent 模型
  • 更完整 agent 入口
  • 更现实 agent 治理

3. 对竞争对手的直接压力是什么

这次发布给 Anthropic、Google、GitHub、Cursor、以及中国大厂都提了同一类问题:

  • 你的模型到底能不能把长任务做完?
  • 你是不是还要用户一直盯着?
  • 你的 token 成本和延迟能不能撑住高频使用?
  • 你有没有 system card 之外的持续攻防治理机制?

以后再只讲“模型更聪明”会越来越不够,因为 OpenAI 已经把市场语言切到了“模型是否像一个能干活的协作者”。

批判性分析

1. OpenAI 的证据里,仍有不少 internal eval 与精选案例

虽然这次官方材料已经比 X 帖完整得多,但仍要看到它的局限:

  • Expert-SWE、investment banking modeling、部分 cyber/coding 结果是 internal eval
  • 大量客户证言来自精选 early testers
  • system card 页面公开信息相对简短,很多安全细节仍在外链 PDF / deployment safety 页面

所以这次发布已经足够支撑深读,但仍不能把所有数字都当成完全等权的第三方结论。

2. GPT-5.5 在部分学术 benchmark 上并非全线碾压

例如 Humanity’s Last Exam 上,GPT-5.5 并没有压过所有竞争对手;GPQA Diamond 也不是绝对领先。这进一步说明 OpenAI 已经有意把主叙事从“学术考试王者”转向“现实工作王者”。

这不是缺点,但它意味着市场以后要用不同尺子看它。

3. 最值得观察的不是首日分数,而是 API 落地后的真实经济性

OpenAI 反复强调更少 token、更低 micromanagement、更高完成率。真正的商业检验不在首发文章,而在接下来两件事:

  • API 上线后,开发者在真实工作流里能否用更少 retries 达到更高完成率
  • 企业是否愿意为 GPT-5.5 Pro 的高价位,持续支付精度溢价

如果这两点成立,GPT-5.5 就不是一次短期营销胜利,而会成为 agent 商业化的重要拐点。

结论

GPT-5.5 最重要的意义,不是 OpenAI 又出了一版更强模型,而是它把旗舰模型的价值函数彻底改写了。

从这次官方材料看,OpenAI 真正想让市场记住的已经不是:

  • 它更会答题
  • 它更会写一段代码
  • 它更会推理一步

而是:

  • 它能理解复杂目标
  • 它能更自然地使用工具
  • 它能更长时间保持在任务上
  • 它能减少人工微操
  • 它能在速度和成本不炸的情况下,把更多工作一路推到完成

这就是 GPT-5.5 的核心:OpenAI 正在把“模型竞争”推进到“agent 完成率竞争”。

对 Lighthouse 来说,这条不是普通模型新闻,而是一个明确信号:前沿模型公司的主战场,正在从静态智力,转向执行型智能。