GPT-realtime 简介 – 搞英语 → 看世界

gpt-realtime于几天前（8 月 28 日）发布，是 OpenAI 全新推出的“最先进的语音转语音模型”。它似乎是去年 10 月发布的旧版gpt-4o-realtime-preview模型的替代品。

这是一个略显混乱的版本。之前的实时模型被明确描述为 GPT-4o 的一个变体，并且与该模型共享相同的训练截止日期，即 2023 年 10 月。

我曾预料到gpt-realtime可能是 GPT-5 的亲戚，但它的训练日期仍然是 2023 年 10 月，而 GPT-5 是 2024 年 9 月。

gpt-realtime还具有与gpt-4o-realtime-preview相同的相对较低的 32,000 个上下文标记和 4,096 个最大输出标记限制。

我在新模型的文档中找到的唯一关于 GPT-5 的参考资料是一条注释，上面写着“歧义和冲突的指令会降低性能，类似于 GPT-5”。

gpt-realtime的使用技巧有几个惊喜：

坚持不懈地迭代。微小的措辞变化可能会影响行为。

例如：将“听不见”→“听不清”互换，可以改善嘈杂输入的处理。[…]

将非文本规则转换为文本：模型对清晰书写的文本响应更好。

例如：不要写“如果 x > 3 则升级”，而要写“如果失败超过三次则升级”。

新的“实时提示指南”中还有更多提示技巧。

OpenAI 列出了gpt-realtime的几项关键改进，包括使用 MCP 服务器列表对其进行配置的能力、“更好地遵循指令”以及向其发送图像的能力。

我最大的困惑来自定价页面，该页面分别列出了使用 Realtime API 与gpt-realtime和 GPT-4o mini 的定价。这似乎暗示着，尽管旧的GPT-4o-mini-realtime-preview模型已不再列在OpenAI 模型页面中，但它仍然可用。

gpt-4o-mini-realtime-preview便宜很多：

迷你模型还具有更长的 128,000 个标记上下文窗口。