Qwen 并不满足于在 7 月份发布六个优秀的开放权重 LLM ,8 月份他们将推出他们的第一个图像生成模型。
Qwen-Image 是一个拥有 200 亿个参数的 MMDiT(多模态扩散变换器,最初为稳定扩散 3 提出)模型,遵循 Apache 2.0 许可证。Hugging Face 代码库大小为 53.97GB。
Qwen 发布了一份详细的技术报告(PDF)来配合该模型。该模型基于他们的 Qwen-2.5-VL 视觉 LLM 构建,他们还广泛利用该模型来创建一些训练数据:
在我们的数据注释管道中,我们利用功能强大的图像字幕器(例如 Qwen2.5-VL)不仅生成全面的图像描述,还生成捕获基本图像属性和质量属性的结构化元数据。
我们没有将字幕和元数据提取视为独立的任务,而是设计了一个注释框架,字幕生成者可以同时描述视觉内容并以结构化格式(例如 JSON)生成详细信息。字幕会捕获对象属性、空间关系、环境语境以及可见文本的逐字转录等关键细节,而类型、样式、水印是否存在以及异常元素(例如二维码或面部马赛克)等关键图像属性则会以结构化格式报告。
他们为模型以有用的方式呈现文本的能力投入了大量精力。5%的训练数据(被描述为“数十亿个图像-文本对”)是“通过受控文本渲染技术合成”的数据,从简单文本到图像背景上的文本,再到更复杂的布局示例:
为了提高模型对涉及布局敏感内容的复杂结构化提示的理解能力,我们提出了一种基于预定义模板(例如 PowerPoint 幻灯片或用户界面模型)的程序化编辑的综合策略。我们设计了一个基于规则的综合系统,用于自动替换占位符文本,同时保持布局结构、对齐和格式的完整性。
我使用ModelScope 演示版尝试了这个模型——我登录了 GitHub,并通过向一个电话号码发送短信验证了我的账户。以下是我收到的“一只浣熊拿着一块写着‘我爱垃圾’的牌子,这块牌子是浣熊写的”的结果:
浣熊的字迹好工整啊!
标签:人工智能、稳定扩散、生成人工智能、视觉 llms 、训练数据、 qwen 、文本到图像、人工智能在中国
原文: https://simonwillison.net/2025/Aug/4/qwen-image/#atom-everything