OpenAI 推出三种新的实时音频 API 模型,包括 GPT-Realtime-2

OpenAI 通过其 API 推出了三种新的实时音频模型,将语音人工智能从基本的问答式交互推向了可以在一次实时对话中进行聆听、推理、翻译和行动的代理。该版本的发布也标志着实时 API 退出了测试版,使其首次全面用于生产。
该版本的核心是 GPT-Realtime-2,它是 OpenAI 基于 GPT-5 级推理建立的第一个语音模型。与大多数语音系统所依赖的分步式架构不同,GPT-Realtime-2 是以连续流的方式处理音频的,因此可以在语音发生时对其进行解释,并做出响应,而不会出现单独的转录和合成阶段所造成的间隙。该模型支持 128K 标记上下文窗口,比前一版本的 32K 有所提高,这使得较长的语音会话和复杂的多步骤代理流无需外部内存支架即可实现。
GPT-Realtime-2 的功能
该模型专为OpenAI 所称的语音通话期间的 "代理行为 "而构建。语音通话过程中的 "代理行为"。前言让它在执行工具调用时说 "让我检查一下 "或 "稍等",这样用户就不会感到无话可说。并行工具调用可让它同时运行多个后端请求,并说明哪个请求正在执行中。更强的恢复行为意味着它能大声处理故障,而不是在对话过程中冻结。音调调整功能可让它根据语境在不同风格之间进行转换:在支持电话中更有分寸,在确认电话时更欢快。
在 OpenAI 的音频推理基准 Big Bench Audio 上,GPT-Realtime-2 的得分比 GPT-Realtime-1.5 高出 15.2%,在 Audio Multichallenger 上,GPT-Realtime-2 的得分比 GPT-Realtime-1.5 高出 13.8%。在实际测试中,Zillow 报告称,在其最难的对抗基准测试中,呼叫成功率提高了 26 个百分点,在 GPT-Realtime-2 上进行及时优化后,成功率从 69% 提高到 95%。该模型的定价为每百万音频输入令牌 32 美元,每百万音频输出令牌 64 美元,每百万缓存输入令牌 0.40 美元。
GPT-Realtime-Translate 和 GPT-Realtime-Whisper
第二个模型是GPT-Realtime-Translate是一个专用的实时语音翻译系统。它能连续处理口语输入,并实时输出译文,无需说话者暂停或完成完整句子。该模型支持 70 多种输入语言和 13 种输出语言,主要针对客户支持、教育、现场活动和跨境销售环境。BolnaAI 是一家面向印度语言市场的语音人工智能公司,该公司报告称,与以前的翻译方法相比,印地语、泰米尔语和泰卢固语的单词错误率降低了 12.5%。GPT-Realtime-Translate 的音频处理价格为每分钟 0.034 美元。
GPT-Realtime-Whisper 是第三种模式,它将 OpenAI 广泛采用的 Whisper 语音识别技术扩展到流媒体系统中。最初的 Whisper 是为录音后转录而设计的,而这一版本则是在语音播出时制作实时字幕。使用案例包括现场会议、法庭文件、新闻编辑室转录以及听障用户的无障碍工具。它的价格是三款产品中最实惠的,每分钟 0.017 美元。所有三种模式现在都可以通过 OpenAI API 和开发者乐园使用。
此次发布还为 Realtime API 增加了 MCP 服务器支持、图像输入功能和 SIP 电话呼叫集成,扩大了企业电话和代理工作流程的范围,开发人员无需离开 API 即可构建。
人工智能工具领域也吸引了攻击者,他们希望利用人们对新产品的兴趣。Notebookcheck 昨天报道了一个 假冒克劳德人工智能网站,该网站通过谷歌赞助的搜索结果,使用木马化的 Claude-Pro 中继安装程序推送 Beagle Windows 后门。
资料来源
» Notebookcheck多媒体笔记本电脑Top 10排名
» Notebookcheck游戏笔记本电脑Top 10排名
» Notebookcheck低价办公/商务笔记本电脑Top 10排名
» Notebookcheck高端办公/商务笔记本电脑Top 10排名
» Notebookcheck工作站笔记本电脑Top 10排名
» Notebookcheck亚笔记本电脑Top 10排名
» Notebookcheck超级本产品Top 10排名
» Notebookcheck变形本产品Top 10排名
» Notebookcheck平板电脑Top 10排名
» Notebookcheck智能手机Top 10排名
» Notebookcheck评测过最出色的笔记本电脑屏幕
» Notebookcheck售价500欧元以下笔记本电脑Top 10排名
» Notebookcheck售价300欧元以下笔记本电脑Top 10排名









