2021 年 1 月,由 Elon Musk 创立并由微软提供资金支持的 OpenAI 联盟公布了其迄今为止最雄心勃勃的项目DALL-E 机器学习系统。这种巧妙的多模态人工智能能够根据用户描述的属性生成图像(尽管是相当卡通的图像)——想想“寿司做的猫”或“坐在森林里的水豚的 X 光片”。周三,该联盟公布了 DALL-E 的下一个迭代版本,它拥有比原始版本更高的分辨率和更低的延迟。
第一个 DALL-E(艺术家中的“Dali”和动画迪士尼角色中的“WALL-E”的组合)可以生成图像以及将多个图像组合成拼贴画,提供不同的视角,甚至从书面描述中推断出图像的元素——例如阴影效果。
“与 3D 渲染引擎不同,其输入必须明确且完整地详细说明,当标题暗示图像必须包含未明确说明的特定细节时,DALL·E 通常能够’填补空白’,” OpenAI 团队在 2021 年写道。
DALL-E 从未打算成为商业产品,因此鉴于 OpenAI 团队将其作为研究工具的重点,它的能力受到了一定的限制,它也被故意设置上限以避免出现 Tay 式情况或利用系统生成误传。它的续集也同样受到保护,可能令人反感的图像从其训练数据中抢先删除,并且水印表明其自动应用了 AI 生成的图像。此外,系统主动阻止用户根据特定名称创建图片。对不起,人们想知道“克里斯托弗·沃肯在西斯廷教堂吃油条”会是什么样子。
DALL-E 2 利用 OpenAI 的 CLIP 图像识别系统,建立在这些图像生成功能之上。用户现在可以选择和编辑现有图像的特定区域,添加或删除元素及其阴影,将两个图像混搭成一个拼贴,并生成现有图像的变体。更重要的是,输出图像是 1024px 的正方形,高于原始版本生成的 256px 头像。 OpenAI 的 CLIP 旨在查看给定图像并以人类可以理解的方式总结其内容。该联盟在与新系统的合作中逆转了这一过程,从摘要中构建了一个图像。
OpenAI 研究科学家 Prafulla Dhariwal 告诉Verge :“DALL-E 1 只是从语言中提取了我们的 GPT-3 方法并将其应用于生成图像:我们将图像压缩成一系列单词,并且我们刚刚学会了预测接下来会发生什么。 ”
与任何人都可以在 OpenAI 网站上玩的第一个版本不同,这个新版本目前只能由经过审查的合作伙伴进行测试,他们自己在上传或生成的内容方面受到限制。只能使用适合家庭的资源,任何涉及裸露、淫秽、极端主义意识形态或“与正在进行的重大地缘政治事件相关的重大阴谋或事件”的内容都是正确的。再次,对希望产生“唐纳德·特朗普在 1 月 6 日骑着一匹赤裸的、感染 COVID 病的南希·佩洛西像一匹马穿过美国参议院行纳粹礼炮的人们感到抱歉。”
尽管 OpenAI 正在考虑在未来将 DALL-E 2 的功能添加到其 API 中,但目前的测试人员也被禁止将他们生成的作品导出到第三方平台。