文本到图像的生成是目前热门的算法过程,OpenAI 的Craiyon (以前称为DALL-E mini )和Google 的 Imagen AI 释放出由人类和计算机的想象力合成的奇妙怪异的程序生成艺术的浪潮。周二,Meta 透露它也开发了一种 AI 图像生成引擎,希望该引擎有助于在 Metaverse 中构建沉浸式世界并创造高水平的数字艺术。
使用一代 AI 时,需要大量工作来创建仅基于“医院里有一匹马”这句话的图像。首先,短语本身通过一个转换器模型输入,这是一个神经网络,它解析句子中的单词并发展对它们彼此关系的上下文理解。一旦掌握了用户描述的要点,人工智能将使用一组 GAN(生成对抗网络)合成一张新图像。
由于近年来努力在日益扩展的高清图像集和精心策划的文本描述上训练 ML 模型,今天最先进的 AI 可以创建您提供给它们的大多数废话的照片级真实图像。 AI之间的具体创建过程不同。
例如,Google 的 Imagen 使用 Diffusion 模型,“它学习将随机点的模式转换为图像”,根据 June Keyword博客。 “这些图像一开始是低分辨率,然后逐渐提高分辨率。”另一方面,谷歌的 Parti AI “首先将一组图像转换为一系列代码条目,类似于拼图。然后将给定的文本提示翻译成这些代码条目,并创建一个新图像。”
虽然这些系统可以创建向他们描述的大部分内容,但用户无法控制输出图像的特定方面。 “为了实现人工智能推动创意表达的潜力,”Meta 首席执行官马克扎克伯格在周二的博客中表示,“人们应该能够塑造和控制系统生成的内容。”
该公司的“探索性 AI 研究概念”被称为Make-A-Scene ,它通过将用户创建的草图整合到其基于文本的图像生成中,输出 2,048 x 2,048 像素的图像。这种组合使用户不仅可以描述他们想要的图像,还可以决定图像的整体构图。 “它展示了人们如何使用文本和简单的图画来更具体地传达他们的愿景,使用各种元素、形式、排列、深度、构图和结构,”扎克伯格说。
在测试中,一个人类评估小组以压倒性多数选择文本和草图图像而不是纯文本图像,因为它与原始草图更好地对齐(99.54% 的时间)并且与原始文本描述更好地对齐 66% 的时间.为了进一步开发这项技术,Meta 与 Sofia Crespo、Scott Eaton、 Alexander Reben和 Refik Anadol 等著名 AI 艺术家分享了 Make-A-Scene 演示,他们将使用该系统并提供反馈。没有关于人工智能何时向公众开放的消息。
原文: https://www.engadget.com/metas-make-a-scene-ai-algorithmic-art-130058753.html?src=rss