Meta 的人工智能音频编解码器承诺比 MP3 压缩 10 倍

放大/音频波中数据的图解描述。（信用：元人工智能）

上周，Meta宣布了一种名为“EnCodec”的 AI 驱动的音频压缩方法，据报道它可以以 64kbps 的速度压缩比MP3 格式小 10 倍的音频，而不会降低质量。 Meta 表示，这种技术可以显着提高低带宽连接上的语音质量，例如在服务不稳定的地区拨打电话。该技术也适用于音乐。

Meta 于 10 月 25 日在 Meta AI 研究人员 Alexandre Défossez 、Jade Copet、Gabriel Synnaeve 和 Yossi Adi 撰写的题为“高保真神经音频压缩”的论文中首次介绍了这项技术。 Meta 还在其专门针对 EnCodec 的博客上总结了这项研究。

Meta 声称其新的音频编码器/解码器可以压缩比 MP3 小 10 倍的音频。（信用：元人工智能）

Meta 将其方法描述为一个由三部分组成的系统，经过训练，可以将音频压缩到所需的目标大小。首先，编码器将未压缩的数据转换为较低帧速率的“潜在空间”表示。然后，“量化器”将表示压缩到目标大小，同时跟踪最重要的信息，这些信息稍后将用于重建原始信号。（此压缩信号通过网络发送或保存到磁盘。）最后，解码器使用单个 CPU 上的神经网络将压缩数据实时转换回音频。

阅读剩余的 4 段|注释

原文： https://arstechnica.com/?p=1894059