News

Advancing voice intelligence with new models in the API

原文链接：https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api 可访问补充：

https://developers.openai.com/api/docs/changelog

https://developers.openai.com/api/docs/models/gpt-realtime-2

https://developers.openai.com/api/docs/models/gpt-realtime-translate

https://developers.openai.com/api/docs/models/gpt-realtime-whisper

https://developers.openai.com/api/docs/guides/realtime

https://developers.openai.com/api/docs/guides/realtime-translation

https://developers.openai.com/api/docs/guides/realtime-transcription 来源：OpenAI News + OpenAI Developers 发布日期：2026-05-07

速查卡

项目	内容
一句话总结	OpenAI 把实时语音能力拆成“语音代理”“实时翻译”“实时转写”三条正式产品线，并首次把 reasoning 明确写进语音 runtime。
大白话版	以前语音助手更像“听写 + 回复”；现在 OpenAI 在做的是“边听边想边说”的语音 agent。
核心要点	• 发布 gpt-realtime-2 • 发布 gpt-realtime-translate • 发布 gpt-realtime-whisper • 三条能力分别映射到三种 session / endpoint
价值评级	A=必读级
适用场景	语音客服、实时口译、会议转写、语音工作流、agentic voice UI

文章背景

这条发布真正重要的地方，不是 OpenAI 又出了几个语音模型，而是它把“语音”从聊天界面里的交互形式，正式推进成 agent runtime 的一等公民。

从官方可访问材料看，2026-05-07 至少发生了三件同时成立的事：

OpenAI 发布 gpt-realtime-2
同步发布 gpt-realtime-translate
同步发布 gpt-realtime-whisper

这不是一个单点模型升级，而是一套完整的语音栈拆分。更关键的是，developers changelog 对 gpt-realtime-2 的描述非常明确：a new realtime voice model with configurable reasoning for speech-to-speech agents。

“configurable reasoning” 这几个词，就是这次发布和上一代语音能力的分水岭。它意味着语音交互不再只是低延迟转写和合成，而是把思考深度、延迟、成本和对话执行能力一起纳入同一个实时会话层。

需要说明的是：openai.com 的原始新闻正文当前被 Cloudflare challenge 挡板拦截，无法直接读取全文。因此本文对“官方直接确认”的部分，优先基于 OpenAI News RSS、OpenAI sitemap 和 Developers 文档体系；对于正文可能提到但当前无法直接核验的内容，会明确标出缺口。

完整内容还原

1. 官方 RSS 给出的新闻层信号

OpenAI News RSS 的标题是《Advancing voice intelligence with new models in the API》，描述是：

“Explore new realtime voice models in the OpenAI API that can reason, translate, and transcribe speech, enabling more natural and intelligent voice experiences.”

这句摘要已经足够说明整篇新闻的主轴：

reason
translate
transcribe

也就是说，OpenAI 不再把语音当成单一产品功能，而是把它拆成三个能力面向三个不同工作流。

2. Developers changelog 直接确认的模型与接口

2026-05-07 的 changelog 条目写得很硬：

发布 gpt-realtime-2
发布 gpt-realtime-translate
发布 gpt-realtime-whisper
对应接口分别是：
- /v1/realtime
- /v1/realtime/translations
- /v1/realtime/transcription_sessions

这意味着 OpenAI 并不是只在模型命名层做区分，而是在 session 语义上就分成三类：

能力	模型	核心接口
实时语音代理	gpt-realtime-2	/v1/realtime
实时口译	gpt-realtime-translate	/v1/realtime/translations
实时转写	gpt-realtime-whisper	/v1/realtime/transcription_sessions

这个拆分非常值得注意，因为它说明 OpenAI 已经承认“翻译”“转写”“会话代理”不是同一个问题，不能再继续用一个大一统语音模型硬包办。

3. gpt-realtime-2：从 voice UI 走向 voice agent

模型页给 gpt-realtime-2 的定义是：Reasoning model for realtime voice interactions。

而 changelog 给得更具体：configurable reasoning for speech-to-speech agents。

这两句叠在一起，可以还原出 OpenAI 对它的真实定位：

它不是简单的语音识别模型
它也不是单纯的 TTS 模型
它是一个在实时会话中可进行推理的 speech-to-speech agent model

Realtime guide 里最关键的实践建议是：

“Start with reasoning.effort set to low for most production voice agents, then adjust based on latency tolerance and task complexity.”

这句话其实很有信息量。它说明 OpenAI 已经把语音 agent 的产品调参问题制度化了：

latency tolerance
task complexity
reasoning effort

这三者一起构成了语音 agent 的新三角。以前语音系统最常见的 tradeoff 是“延迟 vs 准确率”；现在多了一个“思考深度”维度。换句话说，开发者在设计 voice agent 时，终于可以不再只想“它听得准不准、说得快不快”，还要想“它想得够不够”。

4. gpt-realtime-translate：把口译从 assistant 会话里独立出来

这是这次发布里最容易被低估的一部分。

OpenAI 没有让开发者继续用 gpt-realtime-2 去兼做口译，而是单独推出 gpt-realtime-translate，并配了独立 translation session。官方文档明确说：

voice-agent session 中，模型 acts as an assistant
translation session 中，模型 acts as an interpreter
translation session 持续从音频流触发翻译，不需要 response.create

这其实是在会话协议层面承认：翻译不是“回答问题”的一个子任务，而是不同的 interaction contract。

官方文档给出的典型场景包括：

live interpretation
multilingual calls
broadcasts
meetings
lessons
video rooms

这说明 OpenAI 盯的不是单人对话，而是实时多语现场基础设施。如果以后把它接进会议软件、直播系统、客服中心、跨语言销售，语音 AI 的价值就不只是“更自然”，而是“直接消除跨语言同步沟通摩擦”。

5. gpt-realtime-whisper：最低延迟实时转写的独立产品位

OpenAI 同步推出 gpt-realtime-whisper，并在文档里把它明确定位成 live transcription 的专门选项。

官方文档的边界写得很清楚：

gpt-realtime-whisper 适合 streaming transcription
gpt-4o-transcribe / gpt-4o-mini-transcribe 更适合文件或非 streaming 请求

这意味着 OpenAI 对转写产品线也在做分层：

离线/文件型转写
实时/流式转写

它不是一个简单的模型替换，而是把音频输入按使用形态做了产品化重构。

核心技术洞察

1. 实时语音系统开始拥有“推理深度控制旋钮”

reasoning.effort 的出现很关键。它说明 OpenAI 不再把语音看成低智能外设，而是在把实时语音接入 reasoning stack。未来做 voice agent 的人，不只是选声音和 VAD，而是要设计：

哪些轮次必须快
哪些轮次值得想更久
哪些任务该被升级成高 effort

这和文本 agent 的控制方式开始接轨。

2. OpenAI 在协议层承认“翻译 != 对话 != 转写”

单独的 translations endpoint 和 transcription sessions，说明 OpenAI 不想再让所有语音任务都塞进同一个 assistant session。这有两个好处：

产品边界更清晰
工程优化更容易针对任务本质去做

对开发者来说，这降低了把语音能力塞进业务系统的歧义成本。

3. 语音不再只是前端壳，而是 agent 的原生入口

以前很多“语音助手”本质是： ASR → 文本模型 → TTS

现在 OpenAI 的路线明显更像：实时音频流 → 可推理会话状态 → 动态 speech output / translation / transcription

这让语音从串接流水线，变成会话 runtime。

实践指南

🟢 立即可用

低延迟语音代理
- 适合用 gpt-realtime-2
- 生产环境先把 reasoning.effort 设为 low
- 再按复杂任务逐步上调
多语言实时口译
- 适合用 gpt-realtime-translate
- 会议、直播、跨语言客服最直接
实时字幕/会议纪要前置层
- 适合用 gpt-realtime-whisper
- 如果是文件上传或非实时处理，则继续用 4o transcribe 系列更合适

🟡 需要适配

工具调用型语音工作流
- 文档目前更清楚的是 gpt-realtime-2 的定位
- 真正复杂的工具执行策略，还需要更多公开示例
大规模生产客服
- 需要继续观察延迟、价格和会话稳定性

🔴 注意事项

openai.com 正文被挡板拦截，具体 benchmark、价格、支持语言数量目前仍是缺口
translation session 不等于通用 agent，不要误把 interpreter model 用到复杂任务编排
实时系统的最大风险通常不是单轮回答，而是长会话漂移、打断、回声、状态错位和成本放大

横向对比

话题	这次发布前的典型做法	这次发布后的 OpenAI 结构
语音代理	ASR + 文本模型 + TTS 拼装	gpt-realtime-2 原生实时语音 agent
实时翻译	在 assistant 会话里做 prompt 化翻译	独立 translation session + translate 模型
实时转写	泛用转写模型兼顾实时场景	whisper realtime 独立产品位
推理控制	主要看 prompt 和外部编排	reasoning.effort 进入会话层

批判性分析

局限性

最关键的商业信息还没完全公开
- 价格、语言覆盖、延迟指标、地域可用性，当前从可访问官方源仍无法完整确认
实时语音 agent 的工程难度远高于文本 agent
- 打断、重说、说话人切换、网络抖动、情绪语音、工具调用延迟都会放大体验裂缝

适用边界

最适合“低延迟 + 会话持续 + 动作明确”的场景，例如客服、销售助理、实时会议、语言学习、口译。对于长文分析或重文档推理，文本形态仍然更稳。

潜在风险

语音交互更容易被用户默认成人类级理解，失败也更伤信任
一旦实时翻译质量不稳，跨语言会议会迅速放大误解
语音 agent 如果开始接企业工作流，权限控制和审计会变得比文本聊天更紧迫

独立观察

我认为这次发布真正说明的是：OpenAI 已经不再把语音看成 ChatGPT 的附属界面，而是在把语音做成代理执行层。gpt-realtime-2 的关键词不是“voice”，而是“reasoning”。

第二，独立的 translate session 很像一个行业拐点。过去大家默认翻译只是大模型顺手能做的一件事；现在 OpenAI 直接把它做成专门协议，说明他们认为跨语言实时沟通会成为一个足够大的基础设施市场。

第三，这条线会和前一天的 TS Agents SDK、chat-latest 一起形成更完整的战略：OpenAI 在同一周里同时推进 agent 框架、默认聊天模型位、企业 adoption 叙事，以及语音入口。这不是零散发新功能，而是在搭下一代 AI interface stack。