
放大/音频波中数据的图解描述。 (信用:元人工智能)
上周,Meta宣布了一种名为“EnCodec”的 AI 驱动的音频压缩方法,据报道它可以以 64kbps 的速度压缩比MP3 格式小 10 倍的音频,而不会降低质量。 Meta 表示,这种技术可以显着提高低带宽连接上的语音质量,例如在服务不稳定的地区拨打电话。该技术也适用于音乐。
Meta 于 10 月 25 日在 Meta AI 研究人员 Alexandre Défossez 、Jade Copet、Gabriel Synnaeve 和 Yossi Adi 撰写的题为“高保真神经音频压缩”的论文中首次介绍了这项技术。 Meta 还在其专门针对 EnCodec 的博客上总结了这项研究。

Meta 声称其新的音频编码器/解码器可以压缩比 MP3 小 10 倍的音频。 (信用:元人工智能)
Meta 将其方法描述为一个由三部分组成的系统,经过训练,可以将音频压缩到所需的目标大小。首先,编码器将未压缩的数据转换为较低帧速率的“潜在空间”表示。然后,“量化器”将表示压缩到目标大小,同时跟踪最重要的信息,这些信息稍后将用于重建原始信号。 (此压缩信号通过网络发送或保存到磁盘。)最后,解码器使用单个 CPU 上的神经网络将压缩数据实时转换回音频。