我不喜欢新的 OpenAI 语音转文本输入。
早期版本有一个更周到的流程:
- 主动聆听指示器:您看到计时器和麦克风动画,它们给出了正在捕获您的声音的反馈。
- 转录预览:讲话后,发送前可以看到转录。您可以编辑任何错误。
- 显式提交步骤:您可以控制消息何时完成并发送。
现在:
- 没有明确表明您已经讲话了多长时间。它只是说正在听,然后状态变为正在转录,然后它只是发出查询。
- 它会自动发送成绩单而无需确认。一旦收到回复,您就会意识到它无法理解您的口音,并且错误地转录为 5 个关键单词,从而改变了查询的整个上下文。
- 如果模型听错了您,您将无法纠正它,除非您手动重做整个消息。或者在 ChatGPT 回复您的第一条带有拼写错误的消息后进行更正。
- 上帝禁止它抛出“我没听清”之类的错误,尤其是在较长的录音过程中,没有重试的选项,你将不得不重复你刚才所说的一切。
如果一切进展顺利,这种“更快但更愚蠢”的流程就会起作用,但如果一切进展不顺利,就会令人沮丧。克劳德也做了类似的事情。没有中间校正步骤,不允许您校正转录。值得庆幸的是它仍然显示计时器。
OpenAI 的一些 PM 可能针对速度和简单性进行了优化(一键语音界面),但没有意识到语音消息与发送给 LLM 的语音到文本查询不同。新的用户体验假定转录准确性高,LLM 周转速度快,但这并不总是正确的,尤其是在口音、环境噪音和较长的想法的情况下。
原文: https://manassaloi.com/2025/05/08/openai-chatgpt-voicetotext.html