ChatGPT 语音转文字

Posted on 2025-05-10

我不喜欢新的 OpenAI 语音转文本输入。

早期版本有一个更周到的流程：

主动聆听指示器：您看到计时器和麦克风动画，它们给出了正在捕获您的声音的反馈。
转录预览：讲话后，发送前可以看到转录。您可以编辑任何错误。
显式提交步骤：您可以控制消息何时完成并发送。

现在：

没有明确表明您已经讲话了多长时间。它只是说正在听，然后状态变为正在转录，然后它只是发出查询。
它会自动发送成绩单而无需确认。一旦收到回复，您就会意识到它无法理解您的口音，并且错误地转录为 5 个关键单词，从而改变了查询的整个上下文。
如果模型听错了您，您将无法纠正它，除非您手动重做整个消息。或者在 ChatGPT 回复您的第一条带有拼写错误的消息后进行更正。
上帝禁止它抛出“我没听清”之类的错误，尤其是在较长的录音过程中，没有重试的选项，你将不得不重复你刚才所说的一切。

如果一切进展顺利，这种“更快但更愚蠢”的流程就会起作用，但如果一切进展不顺利，就会令人沮丧。克劳德也做了类似的事情。没有中间校正步骤，不允许您校正转录。值得庆幸的是它仍然显示计时器。

OpenAI 的一些 PM 可能针对速度和简单性进行了优化（一键语音界面），但没有意识到语音消息与发送给 LLM 的语音到文本查询不同。新的用户体验假定转录准确性高，LLM 周转速度快，但这并不总是正确的，尤其是在口音、环境噪音和较长的想法的情况下。

原文： https://manassaloi.com/2025/05/08/openai-chatgpt-voicetotext.html