Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

Qwen-Image:使用原生文本渲染进行制作

Posted on 2025-08-05

Qwen-Image:使用原生文本渲染进行制作

Qwen 并不满足于在 7 月份发布六个优秀的开放权重 LLM ,8 月份他们将推出他们的第一个图像生成模型。

Qwen-Image 是一个拥有 200 亿个参数的 MMDiT(多模态扩散变换器,最初为稳定扩散 3 提出)模型,遵循 Apache 2.0 许可证。Hugging Face 代码库大小为 53.97GB。

Qwen 发布了一份详细的技术报告(PDF)来配合该模型。该模型基于他们的 Qwen-2.5-VL 视觉 LLM 构建,他们还广泛利用该模型来创建一些训练数据:

在我们的数据注释管道中,我们利用功能强大的图像字幕器(例如 Qwen2.5-VL)不仅生成全面的图像描述,还生成捕获基本图像属性和质量属性的结构化元数据。

我们没有将字幕和元数据提取视为独立的任务,而是设计了一个注释框架,字幕生成者可以同时描述视觉内容并以结构化格式(例如 JSON)生成详细信息。字幕会捕获对象属性、空间关系、环境语境以及可见文本的逐字转录等关键细节,而类型、样式、水印是否存在以及异常元素(例如二维码或面部马赛克)等关键图像属性则会以结构化格式报告。

他们为模型以有用的方式呈现文本的能力投入了大量精力。5%的训练数据(被描述为“数十亿个图像-文本对”)是“通过受控文本渲染技术合成”的数据,从简单文本到图像背景上的文本,再到更复杂的布局示例:

为了提高模型对涉及布局敏感内容的复杂结构化提示的理解能力,我们提出了一种基于预定义模板(例如 PowerPoint 幻灯片或用户界面模型)的程序化编辑的综合策略。我们设计了一个基于规则的综合系统,用于自动替换占位符文本,同时保持布局结构、对齐和格式的完整性。

我使用ModelScope 演示版尝试了这个模型——我登录了 GitHub,并通过向一个电话号码发送短信验证了我的账户。以下是我收到的“一只浣熊拿着一块写着‘我爱垃圾’的牌子,这块牌子是浣熊写的”的结果:

这是一张浣熊拿着纸板牌子的精彩照片,上面用记号笔写着“我爱垃圾”,浣熊选择用红色记号笔画出爱心形的“o”。

浣熊的字迹好工整啊!

通过@Alibaba_Qwen

标签:人工智能、稳定扩散、生成人工智能、视觉 llms 、训练数据、 qwen 、文本到图像、人工智能在中国

原文: https://simonwillison.net/2025/Aug/4/qwen-image/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme