
放大/这些锯齿状的彩色块正是图像压缩概念的样子。 (信用:Benj Edwards / Ars Technica)
上周,瑞士软件工程师 Matthias Bühlmann 发现,流行的图像合成模型Stable Diffusion可以以比 JPEG 或 WebP 更高的压缩比压缩现有的位图图像,其视觉伪影更少,尽管有一些重要的警告。
Stable Diffusion 是一种AI 图像合成模型,通常根据文本描述(称为“提示”)生成图像。人工智能模型通过研究从互联网上提取的数百万张图像来学习这种能力。在训练过程中,模型在图像和相关词之间建立统计关联,对每张图像的关键信息进行更小的表示,并将它们存储为“权重”,这些权重是代表 AI 图像模型所知道的数学值,因此说话。
当稳定扩散分析并将图像“压缩”成权重形式时,它们位于研究人员所谓的“潜在空间”中,这是一种说法,它们作为一种模糊潜力存在,一旦被解码,就可以在图像中实现.使用 Stable Diffusion 1.4,权重文件大约为 4GB,但它代表了数亿张图像的知识。