OpenAI 的 DALL-E 2 可以生成几乎任何你能想象到的奇幻图像

2021 年 1 月，由 Elon Musk 创立并由微软提供资金支持的 OpenAI 联盟公布了其迄今为止最雄心勃勃的项目DALL-E 机器学习系统。这种巧妙的多模态人工智能能够根据用户描述的属性生成图像（尽管是相当卡通的图像）——想想“寿司做的猫”或“坐在森林里的水豚的 X 光片”。周三，该联盟公布了 DALL-E 的下一个迭代版本，它拥有比原始版本更高的分辨率和更低的延迟。

一碗看起来像怪物的汤，用羊毛编织而成

一碗看起来像怪物的汤，用羊毛编织 – OpenAI

第一个 DALL-E（艺术家中的“Dali”和动画迪士尼角色中的“WALL-E”的组合）可以生成图像以及将多个图像组合成拼贴画，提供不同的视角，甚至从书面描述中推断出图像的元素——例如阴影效果。

“与 3D 渲染引擎不同，其输入必须明确且完整地详细说明，当标题暗示图像必须包含未明确说明的特定细节时，DALL·E 通常能够’填补空白’，” OpenAI 团队在 2021 年写道。

一大群戴着帽子的老鼠在壁炉旁舒适的 35 毫米微距胶片摄影

一大群戴着帽子的老鼠在壁炉旁舒适的 35 毫米微距胶片摄影 – OpenAI

DALL-E 从未打算成为商业产品，因此鉴于 OpenAI 团队将其作为研究工具的重点，它的能力受到了一定的限制，它也被故意设置上限以避免出现 Tay 式情况或利用系统生成误传。它的续集也同样受到保护，可能令人反感的图像从其训练数据中抢先删除，并且水印表明其自动应用了 AI 生成的图像。此外，系统主动阻止用户根据特定名称创建图片。对不起，人们想知道“克里斯托弗·沃肯在西斯廷教堂吃油条”会是什么样子。

DALL-E 2 利用 OpenAI 的 CLIP 图像识别系统，建立在这些图像生成功能之上。用户现在可以选择和编辑现有图像的特定区域，添加或删除元素及其阴影，将两个图像混搭成一个拼贴，并生成现有图像的变体。更重要的是，输出图像是 1024px 的正方形，高于原始版本生成的 256px 头像。 OpenAI 的 CLIP 旨在查看给定图像并以人类可以理解的方式总结其内容。该联盟在与新系统的合作中逆转了这一过程，从摘要中构建了一个图像。

泰迪熊像疯狂的科学家一样混合闪闪发光的化学物质

泰迪熊像疯狂的科学家一样混合闪闪发光的化学物质 – OpenAI

OpenAI 研究科学家 Prafulla Dhariwal 告诉Verge ：“DALL-E 1 只是从语言中提取了我们的 GPT-3 方法并将其应用于生成图像：我们将图像压缩成一系列单词，并且我们刚刚学会了预测接下来会发生什么。 ”

与任何人都可以在 OpenAI 网站上玩的第一个版本不同，这个新版本目前只能由经过审查的合作伙伴进行测试，他们自己在上传或生成的内容方面受到限制。只能使用适合家庭的资源，任何涉及裸露、淫秽、极端主义意识形态或“与正在进行的重大地缘政治事件相关的重大阴谋或事件”的内容都是正确的。再次，对希望产生“唐纳德·特朗普在 1 月 6 日骑着一匹赤裸的、感染 COVID 病的南希·佩洛西像一匹马穿过美国参议院行纳粹礼炮的人们感到抱歉。”

宇航员骑马的照片

宇航员骑马的照片 – OpenAI

尽管 OpenAI 正在考虑在未来将 DALL-E 2 的功能添加到其 API 中，但目前的测试人员也被禁止将他们生成的作品导出到第三方平台。

来源： https://www.engadget.com/open-a-is-dall-e-2-produces-fantastical-images-of-most-anything-you-can-imagine-170056814.html?src=rss

发表回复 取消回复

发表回复取消回复