Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

GPT-realtime 简介

Posted on 2025-09-02

GPT-realtime 简介

gpt-realtime于几天前(8 月 28 日)发布,是 OpenAI 全新推出的“最先进的语音转语音模型”。它似乎是去年 10 月发布的旧版gpt-4o-realtime-preview模型的替代品。

这是一个略显混乱的版本。之前的实时模型被明确描述为 GPT-4o 的一个变体,并且与该模型共享相同的训练截止日期,即 2023 年 10 月。

我曾预料到gpt-realtime可能是 GPT-5 的亲戚,但它的训练日期仍然是 2023 年 10 月,而 GPT-5 是 2024 年 9 月。

gpt-realtime还具有与gpt-4o-realtime-preview相同的相对较低的 32,000 个上下文标记和 4,096 个最大输出标记限制。

我在新模型的文档中找到的唯一关于 GPT-5 的参考资料是一条注释,上面写着“歧义和冲突的指令会降低性能,类似于 GPT-5”。

gpt-realtime的使用技巧有几个惊喜:

坚持不懈地迭代。微小的措辞变化可能会影响行为。

例如:将“听不见”→“听不清”互换,可以改善嘈杂输入的处理。[…]

将非文本规则转换为文本:模型对清晰书写的文本响应更好。

例如:不要写“如果 x > 3 则升级”,而要写“如果失败超过三次则升级”。

新的“实时提示指南”中还有更多提示技巧。

OpenAI 列出了gpt-realtime的几项关键改进,包括使用 MCP 服务器列表对其进行配置的能力、“更好地遵循指令”以及向其发送图像的能力。

我最大的困惑来自定价页面,该页面分别列出了使用 Realtime API 与gpt-realtime和 GPT-4o mini 的定价。这似乎暗示着,尽管旧的GPT-4o-mini-realtime-preview模型已不再列在OpenAI 模型页面中,但它仍然可用。

gpt-4o-mini-realtime-preview便宜很多:

模型 代币类型 输入 缓存输入 输出
GPT实时 文本 4.00 美元 0.40 美元 16.00 美元
声音的 32.00 美元 0.40 美元 64.00 美元
图像 5.00 美元 0.50 美元 –
GPT-4O-迷你实时预览 文本 0.60 美元 0.30 美元 2.40 美元
声音的 10.00 美元 0.30 美元 20.00 美元

迷你模型还具有更长的 128,000 个标记上下文窗口。

标签:音频、实时、人工智能、 OpenAI 、生成式人工智能、 LLMS 、 LLM定价、多模态输出、 LLM发布

原文: https://simonwillison.net/2025/Sep/1/introducing-gpt-realtime/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme