Esc
输入关键词开始搜索
News

Advancing voice intelligence with new models in the API

Advancing voice intelligence with new models in the API

原文链接:https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api 可访问补充:

速查卡

项目内容
一句话总结OpenAI 把实时语音能力拆成“语音代理”“实时翻译”“实时转写”三条正式产品线,并首次把 reasoning 明确写进语音 runtime。
大白话版以前语音助手更像“听写 + 回复”;现在 OpenAI 在做的是“边听边想边说”的语音 agent。
核心要点• 发布 gpt-realtime-2 • 发布 gpt-realtime-translate • 发布 gpt-realtime-whisper • 三条能力分别映射到三种 session / endpoint
价值评级A=必读级
适用场景语音客服、实时口译、会议转写、语音工作流、agentic voice UI

文章背景

这条发布真正重要的地方,不是 OpenAI 又出了几个语音模型,而是它把“语音”从聊天界面里的交互形式,正式推进成 agent runtime 的一等公民。

从官方可访问材料看,2026-05-07 至少发生了三件同时成立的事:

  1. OpenAI 发布 gpt-realtime-2
  2. 同步发布 gpt-realtime-translate
  3. 同步发布 gpt-realtime-whisper

这不是一个单点模型升级,而是一套完整的语音栈拆分。更关键的是,developers changelog 对 gpt-realtime-2 的描述非常明确:a new realtime voice model with configurable reasoning for speech-to-speech agents。

“configurable reasoning” 这几个词,就是这次发布和上一代语音能力的分水岭。它意味着语音交互不再只是低延迟转写和合成,而是把思考深度、延迟、成本和对话执行能力一起纳入同一个实时会话层。

需要说明的是:openai.com 的原始新闻正文当前被 Cloudflare challenge 挡板拦截,无法直接读取全文。因此本文对“官方直接确认”的部分,优先基于 OpenAI News RSS、OpenAI sitemap 和 Developers 文档体系;对于正文可能提到但当前无法直接核验的内容,会明确标出缺口。

完整内容还原

1. 官方 RSS 给出的新闻层信号

OpenAI News RSS 的标题是《Advancing voice intelligence with new models in the API》,描述是:

“Explore new realtime voice models in the OpenAI API that can reason, translate, and transcribe speech, enabling more natural and intelligent voice experiences.”

这句摘要已经足够说明整篇新闻的主轴:

  • reason
  • translate
  • transcribe

也就是说,OpenAI 不再把语音当成单一产品功能,而是把它拆成三个能力面向三个不同工作流。

2. Developers changelog 直接确认的模型与接口

2026-05-07 的 changelog 条目写得很硬:

  • 发布 gpt-realtime-2
  • 发布 gpt-realtime-translate
  • 发布 gpt-realtime-whisper
  • 对应接口分别是:
    • /v1/realtime
    • /v1/realtime/translations
    • /v1/realtime/transcription_sessions

这意味着 OpenAI 并不是只在模型命名层做区分,而是在 session 语义上就分成三类:

能力模型核心接口
实时语音代理gpt-realtime-2/v1/realtime
实时口译gpt-realtime-translate/v1/realtime/translations
实时转写gpt-realtime-whisper/v1/realtime/transcription_sessions

这个拆分非常值得注意,因为它说明 OpenAI 已经承认“翻译”“转写”“会话代理”不是同一个问题,不能再继续用一个大一统语音模型硬包办。

3. gpt-realtime-2:从 voice UI 走向 voice agent

模型页给 gpt-realtime-2 的定义是:Reasoning model for realtime voice interactions。

而 changelog 给得更具体:configurable reasoning for speech-to-speech agents。

这两句叠在一起,可以还原出 OpenAI 对它的真实定位:

  • 它不是简单的语音识别模型
  • 它也不是单纯的 TTS 模型
  • 它是一个在实时会话中可进行推理的 speech-to-speech agent model

Realtime guide 里最关键的实践建议是:

“Start with reasoning.effort set to low for most production voice agents, then adjust based on latency tolerance and task complexity.”

这句话其实很有信息量。它说明 OpenAI 已经把语音 agent 的产品调参问题制度化了:

  1. latency tolerance
  2. task complexity
  3. reasoning effort

这三者一起构成了语音 agent 的新三角。以前语音系统最常见的 tradeoff 是“延迟 vs 准确率”;现在多了一个“思考深度”维度。换句话说,开发者在设计 voice agent 时,终于可以不再只想“它听得准不准、说得快不快”,还要想“它想得够不够”。

4. gpt-realtime-translate:把口译从 assistant 会话里独立出来

这是这次发布里最容易被低估的一部分。

OpenAI 没有让开发者继续用 gpt-realtime-2 去兼做口译,而是单独推出 gpt-realtime-translate,并配了独立 translation session。官方文档明确说:

  • voice-agent session 中,模型 acts as an assistant
  • translation session 中,模型 acts as an interpreter
  • translation session 持续从音频流触发翻译,不需要 response.create

这其实是在会话协议层面承认:翻译不是“回答问题”的一个子任务,而是不同的 interaction contract。

官方文档给出的典型场景包括:

  • live interpretation
  • multilingual calls
  • broadcasts
  • meetings
  • lessons
  • video rooms

这说明 OpenAI 盯的不是单人对话,而是实时多语现场基础设施。如果以后把它接进会议软件、直播系统、客服中心、跨语言销售,语音 AI 的价值就不只是“更自然”,而是“直接消除跨语言同步沟通摩擦”。

5. gpt-realtime-whisper:最低延迟实时转写的独立产品位

OpenAI 同步推出 gpt-realtime-whisper,并在文档里把它明确定位成 live transcription 的专门选项。

官方文档的边界写得很清楚:

  • gpt-realtime-whisper 适合 streaming transcription
  • gpt-4o-transcribe / gpt-4o-mini-transcribe 更适合文件或非 streaming 请求

这意味着 OpenAI 对转写产品线也在做分层:

  • 离线/文件型转写
  • 实时/流式转写

它不是一个简单的模型替换,而是把音频输入按使用形态做了产品化重构。

核心技术洞察

1. 实时语音系统开始拥有“推理深度控制旋钮”

reasoning.effort 的出现很关键。它说明 OpenAI 不再把语音看成低智能外设,而是在把实时语音接入 reasoning stack。未来做 voice agent 的人,不只是选声音和 VAD,而是要设计:

  • 哪些轮次必须快
  • 哪些轮次值得想更久
  • 哪些任务该被升级成高 effort

这和文本 agent 的控制方式开始接轨。

2. OpenAI 在协议层承认“翻译 != 对话 != 转写”

单独的 translations endpoint 和 transcription sessions,说明 OpenAI 不想再让所有语音任务都塞进同一个 assistant session。这有两个好处:

  1. 产品边界更清晰
  2. 工程优化更容易针对任务本质去做

对开发者来说,这降低了把语音能力塞进业务系统的歧义成本。

3. 语音不再只是前端壳,而是 agent 的原生入口

以前很多“语音助手”本质是: ASR → 文本模型 → TTS

现在 OpenAI 的路线明显更像: 实时音频流 → 可推理会话状态 → 动态 speech output / translation / transcription

这让语音从串接流水线,变成会话 runtime。

实践指南

🟢 立即可用

  1. 低延迟语音代理

    • 适合用 gpt-realtime-2
    • 生产环境先把 reasoning.effort 设为 low
    • 再按复杂任务逐步上调
  2. 多语言实时口译

    • 适合用 gpt-realtime-translate
    • 会议、直播、跨语言客服最直接
  3. 实时字幕/会议纪要前置层

    • 适合用 gpt-realtime-whisper
    • 如果是文件上传或非实时处理,则继续用 4o transcribe 系列更合适

🟡 需要适配

  1. 工具调用型语音工作流

    • 文档目前更清楚的是 gpt-realtime-2 的定位
    • 真正复杂的工具执行策略,还需要更多公开示例
  2. 大规模生产客服

    • 需要继续观察延迟、价格和会话稳定性

🔴 注意事项

  1. openai.com 正文被挡板拦截,具体 benchmark、价格、支持语言数量目前仍是缺口
  2. translation session 不等于通用 agent,不要误把 interpreter model 用到复杂任务编排
  3. 实时系统的最大风险通常不是单轮回答,而是长会话漂移、打断、回声、状态错位和成本放大

横向对比

话题这次发布前的典型做法这次发布后的 OpenAI 结构
语音代理ASR + 文本模型 + TTS 拼装gpt-realtime-2 原生实时语音 agent
实时翻译在 assistant 会话里做 prompt 化翻译独立 translation session + translate 模型
实时转写泛用转写模型兼顾实时场景whisper realtime 独立产品位
推理控制主要看 prompt 和外部编排reasoning.effort 进入会话层

批判性分析

局限性

  1. 最关键的商业信息还没完全公开

    • 价格、语言覆盖、延迟指标、地域可用性,当前从可访问官方源仍无法完整确认
  2. 实时语音 agent 的工程难度远高于文本 agent

    • 打断、重说、说话人切换、网络抖动、情绪语音、工具调用延迟都会放大体验裂缝

适用边界

最适合“低延迟 + 会话持续 + 动作明确”的场景,例如客服、销售助理、实时会议、语言学习、口译。对于长文分析或重文档推理,文本形态仍然更稳。

潜在风险

  1. 语音交互更容易被用户默认成人类级理解,失败也更伤信任
  2. 一旦实时翻译质量不稳,跨语言会议会迅速放大误解
  3. 语音 agent 如果开始接企业工作流,权限控制和审计会变得比文本聊天更紧迫

独立观察

我认为这次发布真正说明的是:OpenAI 已经不再把语音看成 ChatGPT 的附属界面,而是在把语音做成代理执行层。gpt-realtime-2 的关键词不是“voice”,而是“reasoning”。

第二,独立的 translate session 很像一个行业拐点。过去大家默认翻译只是大模型顺手能做的一件事;现在 OpenAI 直接把它做成专门协议,说明他们认为跨语言实时沟通会成为一个足够大的基础设施市场。

第三,这条线会和前一天的 TS Agents SDK、chat-latest 一起形成更完整的战略:OpenAI 在同一周里同时推进 agent 框架、默认聊天模型位、企业 adoption 叙事,以及语音入口。这不是零散发新功能,而是在搭下一代 AI interface stack。