
放大(来源:Benj Edwards / Ars Technica)
周三,OpenAI 发布了一个名为Whisper的新开源 AI 模型,它可以在接近人类识别能力的水平上识别和翻译音频。它可以转录采访、播客、对话等。
OpenAI对 Whisper进行了 680,000 小时的音频数据和从网络上收集的大约 10 种语言的匹配转录本的训练。根据 OpenAI 的说法,这种开放收集方法导致“提高了对口音、背景噪音和技术语言的鲁棒性”。它还可以检测口语并将其翻译成英语。
OpenAI 将 Whisper 描述为编码器-解码器转换器,这是一种神经网络,可以使用从输入数据中收集的上下文来学习关联,然后可以将其转换为模型的输出。 OpenAI 提供了 Whisper 操作的概述: