How frontier enterprises are building an AI advantage
How frontier enterprises are building an AI advantage
主要信源:https://openai.com/index/introducing-b2b-signals 相关入口:https://openai.com/signals/b2b/ 事件日期:2026-05-06
速查卡
| 项目 | 内容 |
|---|---|
| 一句话总结 | OpenAI 正在重写企业 AI 成熟度口径:真正领先的公司,不是发更多 AI 席位,而是让每个员工消耗 3.5 倍智能、把更多复杂工作委托给 agent。 |
| 大白话版 | 企业 AI 的比拼已经不再是“大家都装了 ChatGPT 吗”,而是“你的员工是不是已经把编码、研究、理赔、流程处理这种真正的工作交给 AI 干了”。 |
| 核心数字 | 95 分位 frontier firms 的 intelligence per worker 是 typical firms 的 3.5x;一年前是 2x;message volume 只解释 36% 差距;Codex messages per worker 达到 16x。 |
| 影响评级 | A = 改变行业格局。它试图定义未来企业 AI 的 KPI。 |
| 利益相关方 | OpenAI、企业 CIO/CTO、软件与安全团队、保险与金融客户、AI 平台供应商、agent 开发栈玩家。 |
事件全貌
发生了什么?
OpenAI 发布了一个新的固定研究栏目:B2B Signals。它不是在推新模型,而是在推一套企业 AI 的观察框架。
这份首期材料想说明三件事:
- frontier firms 正在快速拉开与普通企业的使用深度差距;
- 这个差距主要不是因为“聊得更多”,而是因为“任务更复杂、上下文更丰富、输出更实质”;
- agentic workflows 已经成为成熟企业 AI 使用的前沿标记,其中 Codex 最醒目。
OpenAI 把所谓 frontier firms 定义为 usage 处在 95th percentile 的企业。按照它给出的数据,这些公司的人均 intelligence usage 已达到 typical firms 的 3.5 倍,而一年前这个倍数还是 2 倍。
时间线
- 2025-04:OpenAI 口径里,frontier vs typical 的人均智能消耗倍数约为 2x。
- 2026-05-06:B2B Signals 首次公开,倍数被更新为 3.5x。
- 同期:OpenAI 也在推进 chat-latest、Agents SDK、Codex 与 agent 工作流叙事。
- 下一阶段:OpenAI 明说会持续更新这套企业 AI 扩散指标。
关键机构说了什么?
OpenAI 的核心判断有几句特别重要:
- Frontier firms now use 3.5x as much intelligence per worker as typical firms.
- Message volume explains only 36% of that gap.
- Codex shows the largest gap, with frontier firms sending 16x as many messages per worker as typical firms.
这几句话连起来,就是一套完整战略判断:企业 AI 领先优势已经开始复利化,而且增益来自 deeper usage 与 delegated work,而不是简单聊天次数。
技术解析
OpenAI 到底在量什么?
这份材料最关键的技术设计,不是模型本身,而是指标口径。
OpenAI 说自己用 “tokens generated” 作为 intelligence demanded 的 proxy。它很谨慎,明确承认:
- token 不是业务价值本身;
- 但它能近似衡量员工到底在要求 AI 做多少工作;
- 因而可以作为“使用深度”的代理信号。
这意味着它试图把企业 AI 采用拆成两个维度:
广度 = 谁拿到了工具 / 谁在使用
深度 = 每个员工让 AI 实际承担了多少复杂工作
过去很多企业汇报停留在前者;OpenAI 想推动市场转向后者。
关键指标
| 指标 | 数值 | 对比 | 说明 |
|---|---|---|---|
| Intelligence per worker | 3.5x | 一年前 2x | Frontier firms 与 typical firms 的人均 AI 使用深度差距在扩大 |
| Message volume 解释度 | 36% | 非主因 | 说明差距不是单纯消息更多,而是任务更复杂 |
| Codex messages per worker | 16x | 最显著差距 | 编码与 agent 工具是前沿企业最明显的领先点 |
| Cisco build times | -20% | 生产工作流 | 说明 AI 已进入工程组织主路径 |
| Cisco saved hours | 1,500+ / 月 | 工程组织级 | AI 不只是提效演示,而是释放实打实人时 |
| Cisco defect resolution throughput | 10-15x | 复杂软件工作 | 说明 delegated coding 已能改变软件交付链条 |
| Travelers first notice of loss calls | 约 100,000 / 首年 | 业务流程级 | AI 已嵌入保险理赔入口系统 |
Agentic workflows 为什么是下一个分水岭?
OpenAI 给出的结论是:前沿企业和普通企业最大的差距,已经出现在 advanced and agentic tools 上。
它点名了几类工具:
- Codex
- ChatGPT Agent
- Apps in ChatGPT
- Deep Research
- GPTs
这些工具的共同点不是“能回答问题”,而是能:
- 调用工具;
- 访问文件和代码库;
- 执行多步任务;
- 带着公司上下文继续工作。
这就是为什么 OpenAI 在文中反复强调 delegation。真正的成熟企业,不再把 AI 当搜索框,而是当工作节点。
Cisco 与 Travelers 案例说明了什么?
Cisco 的例子非常关键,因为它让 Codex 从“写代码 demo”变成了组织级生产工具:
- complex software work 加速;
- build time 降约 20%;
- 每月节省 1,500+ 工程小时;
- defect-resolution throughput 提高 10-15 倍。
而 Travelers 的例子说明 agent 不只在研发里有效。其 AI Claim Assistant:
- 引导 first notice of loss;
- 回答保单问题;
- 收集启动理赔所需信息;
- 直接在 Travelers 系统里创建 claims;
- 首年预计可处理约 100,000 通相关来电。
前者证明 AI 能进工程主线,后者证明 AI 能进运营主线。
产业影响链
OpenAI 发布 B2B Signals 新口径
├→ 企业 AI 评估从 seat 数迁移到 usage depth
│ ├→ CIO/CTO 指标体系改变
│ └→ 厂商竞争口径从 MAU 迁到 workflow penetration
├→ agentic tools 成为成熟度标志
│ ├→ Codex / Agent / Deep Research 使用升温
│ └→ 代码、研究、客服、理赔等流程更易被重构
├→ 企业开始重视 governance 与 production enablement
│ ├→ 不再只做试点
│ └→ 真正进入组织流程、权限与审计体系
└→ 平台商争夺默认 agent stack
谁受益?
- OpenAI 自身平台栈:因为这套指标天然更有利于能提供代码、agent、research、应用集成的一体化平台。
- 已经把 AI 接入生产系统的企业:它们可以借这套口径讲出更强的 ROI 故事。
- 擅长 agent workflows 的团队:未来预算和话语权会更集中到这些能把 AI 做成工作流的人手里。
谁受损?
- 只停留在试用和聊天层的企业:看上去“已经上 AI”,实际上没有形成复利优势。
- 只会卖 seat、不掌握工作流的供应商:在新口径下更难证明长期价值。
- 缺少治理能力的组织:真正进入 delegated work 后,权限、审计、责任链的问题会一起涌上来。
对开发者/用户的影响
对技术团队,这份报告等于给出一个非常现实的判断:未来企业 AI 竞争,最先被放大的不是通用问答,而是 coding、research、workflow automation。
对业务团队,它提示了另一件事:如果 AI 只是帮你润色邮件,那你仍然处在“typical firm”;如果 AI 已开始帮你创建理赔、跑分析、推进多步流程,你才开始接近“frontier firm”。
竞争格局变化
变化前
企业 AI 市场过去最常见的叙事是:
- 部署了多少席位;
- 员工用了多少次;
- 哪个行业渗透率高。
变化后
OpenAI 试图把问题改写成:
- 每位员工到底消耗了多少“智能工作量”;
- 多少任务已从协助变成委托;
- 哪些团队率先建立了生产治理和 agent 工作流能力。
预期各方反应
- Microsoft 可能会更强调 Copilot 在真实组织工作流里的渗透与 M365 数据面的结合。
- Anthropic 会继续强调企业级 agent、受监管行业、治理和审计链。
- Google 可能把 Workspace、开发者工具和 AI Mode 视角结合,争夺“工作流深度”话语权。
历史脉络
2023-2024 年,企业 AI 的核心问题还是“要不要上”。
2025 年,问题变成“给多少人上”。
到了 2026 年,OpenAI 这篇文章明确提出第三阶段问题: “上了之后,AI 到底替你干了多少真正的活?”
这就是为什么它特别强调 tokens as proxy、deeper usage、richer context、substantive outputs、delegated work。行业已经从 adoption phase 进入 workflow redesign phase。
批判性分析
被忽略的风险
- 指标自带平台偏差:这份分析基于 OpenAI 产品的隐私保护聚合数据,天然更能看见 OpenAI 生态里的成功路径。
- token 不等于价值:一个高 token 工作流未必一定有高商业回报,可能只是流程复杂或提示冗长。
- 高强度使用不自动等于好治理:真正进入 delegated work 后,错误传播的风险也会同步放大。
乐观预期的合理性
OpenAI 对“前沿优势开始复利”的判断并非空喊,因为它给出的数据不是单一案例,而是组织级模式:3.5x、36%、16x,再配 Cisco 和 Travelers 的生产实例,足够说明 AI 正在进入真实工作流深处。
悲观预期的合理性
但不能忽略一个事实:这仍是平台侧定义的成熟度口径。若未来其他云厂、咨询公司或第三方研究机构给出不同指标,市场未必完全接受 OpenAI 的框架。
独立观察
- 这篇文章最强的地方,不是证明 OpenAI 产品厉害,而是试图夺取“企业 AI 应该怎么衡量”的定义权。
- “message volume 只解释 36%” 是整篇最值钱的句子,因为它直接否定了低质量活跃度指标。
- 对动动最值得追踪的,是未来 OpenAI 会不会把 B2B Signals 做成季度性行业雷达,并披露更多行业切片,比如金融、软件、安全、保险谁在最早进入 agent 化。