OpenAI 的 AI 模型自动识别语音并将其翻译成英语

放大（来源：Benj Edwards / Ars Technica）

周三，OpenAI 发布了一个名为Whisper的新开源 AI 模型，它可以在接近人类识别能力的水平上识别和翻译音频。它可以转录采访、播客、对话等。

OpenAI对 Whisper进行了 680,000 小时的音频数据和从网络上收集的大约 10 种语言的匹配转录本的训练。根据 OpenAI 的说法，这种开放收集方法导致“提高了对口音、背景噪音和技术语言的鲁棒性”。它还可以检测口语并将其翻译成英语。

OpenAI 将 Whisper 描述为编码器-解码器转换器，这是一种神经网络，可以使用从输入数据中收集的上下文来学习关联，然后可以将其转换为模型的输出。 OpenAI 提供了 Whisper 操作的概述：