Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

OpenAI 的新音频模型,但我们在多大程度上可以依赖它们?

Posted on 2025-03-21

OpenAI 今天宣布了多项与音频相关的新 API 功能,适用于文本转语音和语音转文本。它们是非常有前途的新模型,但它们似乎始终存在意外(或恶意)指令遵循的风险。

gpt-4o-迷你-tts

gpt-4o-mini-tts是一种全新的文本转语音模型,具有“更好的可操控性”。 OpenAI 在OpenAI.fm上为此发布了一个令人愉快的新游乐场界面 – 您可以从 11 种基本声音中进行选择,应用诸如“高能量、古怪和稍微精神错乱”之类的指令,并让它读出脚本(括号中带有可选的额外舞台指示)。然后,它可以提供 Python、JavaScript 或curl 中的等效 API 代码。您可以分享您的实验链接,这是一个示例。

显示语音和脚本选项的用户界面。声音选项包括 Alloy、Ash、Ballad、Coral(选定)、Echo、Fable、Onyx、Nova、Sage、Shimmer、Verse 和随机播放按钮。氛围部分显示“戏剧性”(选定)、“拉拉队长”、“冷静”、“专业”、“真实犯罪浅黄”和一个刷新按钮。说明如下:声音效果:低沉、安静、充满悬念;传达紧张和阴谋。语气:非常严肃而神秘,始终保持着一种不安的暗流。节奏:快节奏、深思熟虑,在悬疑时刻后稍微停顿以增强戏剧性。情感:克制但激烈——在关键的悬念点上声音应该微妙地颤抖或收紧。重点:突出感官描述(“脚步声回响”、“心跳”、“阴影融入黑暗”)以放大气氛。发音:稍微拉长的元音和软化的辅音,产生一种令人毛骨悚然、令人难以忘怀的效果。停顿:在诸如“只有阴影融化成黑暗”之类的短语之后插入有意义的停顿,尤其是在最后一行之前,以戏剧性地增强悬念。剧本上写着: 夜雾浓重,小镇笼罩在薄雾之中。伊芙琳·哈珀警探把外套拉得更紧,感到脊背发凉。她知道小镇埋藏的秘密再次浮现。 (小声地说:)脚步声在她身后回响,缓慢而从容。她转过身,心跳加速,但只看到了影子。 (现在听起来很惊慌)伊芙琳稳定了呼吸——今晚感觉不同了。今晚,危险感触手可及。附近的某个地方,隐藏的眼睛注视着她的一举一动。等待。规划。知道她的下一步。这只是开始......底部显示“下载”、“共享”和“播放”按钮。

请注意我的脚本的一部分如下所示:

(小声说一下:)

脚步声在她身后响起,缓慢而从容。她转过身,心跳加速,但只看到了影子。

虽然有趣且方便,但您可以在脚本本身中插入阶段方向这一事实对我来说感觉像是一种反模式 – 这意味着您不能安全地将其用于任意文本,因为存在某些文本可能意外被视为对模型的进一步说明的风险。

在我自己的实验中,我已经看到这种情况发生:有时模型正确地遵循我的“耳语这个位”指令,有时它会大声说出“耳语”这个词,但不会说出“这个位”这个词。结果看起来是不确定的,并且也可能随着不同的基本声音而变化。

gpt-4o-mini-tts的成本为0.60 美元/百万代币,OpenAI 估计约为每分钟 1.5 美分。

gpt-4o-转录和 gpt-4o-mini-转录

gpt-4o-transcribe和gpt-4o-mini-transcribe是两种新的语音转文本模型,其用途与Whisper类似,但建立在 GPT-4o 之上,并设置了“新的最先进基准”。这些可以通过 OpenAI 的v1/audio/transcriptions API使用,作为“whisper-1”的替代选项。 API 仍仅限于 25MB 音频文件(MP3、WAV 或几种其他格式)。

每当基于 LLM 的模型用于音频转录(或 OCR)时,我都会担心意外的指令遵循 – 是否存在看起来像口头或扫描文本中的指令的内容可能不包含在结果转录中的风险?

OpenAI 的 Jeff Harris 在Hacker News 的评论中谈到了这些新模型与gpt-4o-audio-preview的不同之处:

这是一个稍微好一点的 TTS 模型。通过额外的培训,重点是完全按照书面内容阅读剧本。

例如,当指示音频预览模型说“意大利的首都是什么”时,它通常会说“罗马”。这个模型在这方面应该要好得多

在我看来,“在这方面好多了”听起来仍然存在发生这种情况的风险,因此对于某些敏感应用程序,坚持使用耳语或其他传统的文本到语音方法可能是有意义的。

杰夫在 Twitter 上补充道:

是的,转录保真度是将音频模型转换为 TTS 模型的一大工作。仍然有可能,但应该很少见

gpt-4o-transcribe估计为每分钟 0.6 美分, gpt-4o-mini-transcribe为每分钟 0.3 美分。

混合数据和指令仍然是法学硕士的主要罪过

如果您看起来很熟悉这些问题,那是因为它们是提示注入背后根本原因的变体。 LLM 架构鼓励在同一令牌流中混合指令和数据,但这意味着始终存在来自数据的令牌(通常来自不受信任的来源)可能被误解为模型指令的风险。

这对这些新模型的实用性有多大影响还有待观察。也许新的训练是如此强大,以至于这些问题实际上不会给现实世界的应用程序带来问题?

我仍然持怀疑态度。我预计我们会在相对较短的时间内看到这些缺陷的演示。

标签:音频、文本转语音、人工智能、 openai 、提示注入、生成人工智能、耳语、 LLMS 、多模式输出

原文: https://simonwillison.net/2025/Mar/20/new-openai-audio-models/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme