gpt-realtime
于几天前(8 月 28 日)发布,是 OpenAI 全新推出的“最先进的语音转语音模型”。它似乎是去年 10 月发布的旧版gpt-4o-realtime-preview
模型的替代品。
这是一个略显混乱的版本。之前的实时模型被明确描述为 GPT-4o 的一个变体,并且与该模型共享相同的训练截止日期,即 2023 年 10 月。
我曾预料到gpt-realtime
可能是 GPT-5 的亲戚,但它的训练日期仍然是 2023 年 10 月,而 GPT-5 是 2024 年 9 月。
gpt-realtime
还具有与gpt-4o-realtime-preview
相同的相对较低的 32,000 个上下文标记和 4,096 个最大输出标记限制。
我在新模型的文档中找到的唯一关于 GPT-5 的参考资料是一条注释,上面写着“歧义和冲突的指令会降低性能,类似于 GPT-5”。
gpt-realtime
的使用技巧有几个惊喜:
坚持不懈地迭代。微小的措辞变化可能会影响行为。
例如:将“听不见”→“听不清”互换,可以改善嘈杂输入的处理。[…]
将非文本规则转换为文本:模型对清晰书写的文本响应更好。
例如:不要写“如果 x > 3 则升级”,而要写“如果失败超过三次则升级”。
新的“实时提示指南”中还有更多提示技巧。
OpenAI 列出了gpt-realtime
的几项关键改进,包括使用 MCP 服务器列表对其进行配置的能力、“更好地遵循指令”以及向其发送图像的能力。
我最大的困惑来自定价页面,该页面分别列出了使用 Realtime API 与gpt-realtime
和 GPT-4o mini 的定价。这似乎暗示着,尽管旧的GPT-4o-mini-realtime-preview模型已不再列在OpenAI 模型页面中,但它仍然可用。
gpt-4o-mini-realtime-preview
便宜很多:
模型 | 代币类型 | 输入 | 缓存输入 | 输出 |
---|---|---|---|---|
GPT实时 | 文本 | 4.00 美元 | 0.40 美元 | 16.00 美元 |
声音的 | 32.00 美元 | 0.40 美元 | 64.00 美元 | |
图像 | 5.00 美元 | 0.50 美元 | – | |
GPT-4O-迷你实时预览 | 文本 | 0.60 美元 | 0.30 美元 | 2.40 美元 |
声音的 | 10.00 美元 | 0.30 美元 | 20.00 美元 |
迷你模型还具有更长的 128,000 个标记上下文窗口。
标签:音频、实时、人工智能、 OpenAI 、生成式人工智能、 LLMS 、 LLM定价、多模态输出、 LLM发布
原文: https://simonwillison.net/2025/Sep/1/introducing-gpt-realtime/#atom-everything