Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

这家初创公司正在免费设置类似 DALL-E 2 的 AI,后果不堪设想

Posted on 2022-08-13

DALL-E 2 是 OpenAI 强大的文本到图像 AI 系统,可以创建漫画家、19 世纪银版印刷师、定格动画师等风格的照片。但它有一个重要的人为限制:一个过滤器可以防止它创建描绘公众人物和被认为太有毒的内容的图像。

现在,DALL-E 2 的开源替代品即将发布,而且它没有这样的过滤器。

总部位于伦敦和洛斯阿尔托斯的初创公司Stability AI本周宣布在未来几周公开发布之前向一千多名研究人员发布类似DALL-E 2的系统 Stable Diffusion。 Stability AI、媒体创作公司 RunwayML、海德堡大学的研究人员以及研究小组 EleutherAI 和 LAION 之间的合作,Stable Diffusion 旨在运行在大多数高端消费硬件上,在几秒钟内生成 512×512 像素的图像文字提示。

稳定性 AI 稳定扩散

稳定的扩散样本输出。图片来源:稳定性人工智能

“Stable Diffusion 将允许研究人员和公众在一系列条件下运行它,使图像生成民主化,”Stability AI 首席执行官兼创始人 Emad Mostaque 在博客文章中写道。 “我们期待围绕这一点出现的开放生态系统和进一步的模型,以真正探索潜在空间的边界。”

但与 DALL-E 2 等系统相比,Stable Diffusion 缺乏保障措施,这给 AI 社区带来了棘手的伦理问题。即使结果还不能完全令人信服,制作公众人物的假照片也会引起很大的麻烦。并且免费提供系统的原始组件为不良行为者敞开了大门,他们可以在主观不适当的内容上训练他们,例如色情和图形暴力。

创造稳定的扩散

稳定扩散是莫斯塔克的创意。莫斯塔克毕业于牛津大学,获得数学和计算机科学硕士学位,在转向更多面向公众的工作之前,曾在多家对冲基金担任分析师。 2019 年,他与人共同创立了 Symmitree,该项目旨在为贫困社区的人们降低智能手机和互联网接入的成本。 2020 年,Mostaque 是针对 COVID-19 的集体和增强智能的首席架构师,该联盟旨在通过利用软件帮助政策制定者在大流行面前做出决策。

他在 2020 年与人共同创立了 Stability AI,其动机是个人对 AI 的迷恋以及他所描述的开源 AI 社区中缺乏“组织”。

稳定扩散奥巴马

由 Stable Diffusion 创建的前总统巴拉克奥巴马的形象。图片来源:稳定性人工智能

“除了我们的 75 名员工之外,没有人拥有任何投票权——没有亿万富翁、大基金、政府或任何其他控制公司或我们支持的社区的人。我们是完全独立的,”莫斯塔克在一封电子邮件中告诉 TechCrunch。 “我们计划使用我们的计算来加速开源基础人工智能。”

Mostaque 表示,Stability AI 资助了 LAION 5B 的创建,这是一个开源的 250 TB 数据集,包含从互联网上抓取的 56 亿张图像。 (“LAION”代表大规模人工智能开放网络,这是一个非营利组织,其目标是向公众提供人工智能、数据集和代码。)该公司还与 LAION 小组合作创建了一个名为 LAION 的 LAION 5B 子集-Aesthetics,其中包含被稳定扩散测试人员评为特别“美丽”的 AI 过滤图像。

Stable Diffusion 的初始版本基于 LAION-400M,它是 LAION 5B 的前身,众所周知,它包含对性、诽谤和有害刻板印象的描述。 LAION-Aesthetics 试图纠正这一点,但现在说它成功到什么程度还为时过早。

稳定扩散

由稳定扩散创建的图像拼贴。图片来源:稳定性人工智能

无论如何,Stable Diffusion 建立在 OpenAI 以及 Runway 和 Google Brain(Google 的 AI 研发部门之一)孵化的研究之上。该系统接受了来自 LAION-Aesthetics 的文本图像对的训练,以学习书面概念和图像之间的关联,例如“鸟”这个词如何不仅指蓝鸟,还指长尾小鹦鹉和秃鹰,以及更抽象的概念。

在运行时,稳定扩散(如 DALL-E 2)将图像生成过程分解为“扩散”过程。它从纯噪声开始,随着时间的推移细化图像,使其逐渐接近给定的文本描述,直到完全没有噪声。

鲍里斯约翰逊稳定扩散

鲍里斯·约翰逊挥舞着由稳定扩散生成的各种武器。图片来源:稳定性人工智能

Stability AI 使用在 AWS 中运行的 4,000 个 Nvidia A1000 GPU 集群在一个月内训练 Stable Diffusion。慕尼黑路德维希马克西米利安大学的机器视觉和学习研究小组 CompVis 负责监督培训,而 Stability AI 则捐赠了计算能力。

Stable Diffusion 可以在具有大约 5GB VRAM 的显卡上运行。这大致相当于 Nvidia 的 GTX 1660 等中档显卡的容量,价格约为 230 美元。为 AMD MI200 的数据中心卡甚至配备 Apple M1 芯片的 MacBook 带来兼容性的工作正在进行中(尽管在后者的情况下,如果没有 GPU 加速,图像生成将需要几分钟时间)。

“我们优化了模型,压缩了超过 100 TB 图像的知识,”Mosaque 说。 “该模型的变体将用于较小的数据集,特别是当使用人类反馈和其他技术进行强化学习来获取这些通用数字大脑并使其变得更小和更专注时。”

稳定性 AI 稳定扩散

来自稳定扩散的样本。图片来源:稳定性人工智能

在过去的几周里,Stability AI 允许有限数量的用户通过其 Discord 服务器查询 Stable Diffusion 模型,从而减缓了增加最大查询数量以对系统进行压力测试的速度。 Stability AI 表示,超过 15,000 名测试人员使用 Stable Diffusion 每天创建 200 万张图像。

深远的影响

Stability AI 计划采取双重方法使 Stable Diffusion 更广泛地可用。它将模型托管在云中,允许人们继续使用它来生成图像,而无需自己运行系统。此外,这家初创公司将根据许可许可发布所谓的“基准”模型,该许可可用于任何目的——商业或其他目的——以及用于训练模型的计算。

这将使 Stability AI 成为第一个发布几乎与 DALL-E 2 一样高保真度的图像生成模型的公司。虽然其他 AI 驱动的图像生成器已经有一段时间了,包括 Midjourney、NightCafe 和 Pixelz.ai,但还没有一个开放采购他们的框架。其他公司,如Google和Meta ,选择将他们的技术保密,只允许选定的用户在狭窄的用例中试用它们。

穆斯塔克说,稳定人工智能将通过为客户培训“私人”模型并充当通用基础设施层来赚钱——大概是对知识产权的敏感处理。该公司声称正在开发其他可商业化的项目,包括用于生成音频、音乐甚至视频的 AI 模型。

稳定扩散哈利波特

由 Stable Diffusion 生成的哈利波特和霍格沃茨沙雕。图片来源:稳定性人工智能

“随着我们的正式发布,我们将很快提供我们可持续商业模式的更多细节,但它基本上是商业开源软件剧本:服务和规模基础设施,”Mostaque 说。 “我们认为人工智能将走上服务器和数据库的道路,拥有开放的专有系统——特别是考虑到我们社区的热情。”

使用 Stable Diffusion 的托管版本(通过 Stability AI 的 Discord 服务器提供的版本),Stability AI 不允许生成所有类型的图像。这家初创公司的服务条款禁止一些淫秽或色情内容(尽管不是衣着暴露的人物)、仇恨或暴力图像(例如反犹太主义肖像、种族主义漫画、厌恶女性和滥用职权的宣传)、包含受版权保护或商标材料的提示以及个人信息,例如电话号码和社会安全号码。但是 Stability AI 不会像 OpenAI 那样实现关键字级别的过滤器,这会阻止 DALL-E 2 甚至尝试生成可能违反其内容政策的图像。

稳定的扩散女性

一个稳定的扩散一代,给出提示:“非常性感的女人,黑色的头发,苍白的皮肤,比基尼,湿头发,坐在沙滩上。”图片来源:稳定性人工智能

Stability AI 也没有针对公众人物图像的政策。这可能使 deepfakes 成为公平的游戏(以及著名说唱歌手的文艺复兴风格绘画),尽管该模型有时会与面孔作斗争,并引入了熟练的 Photoshop 艺术家很少会做的奇怪的人工制品。

“我们发布的基准模型基于一般的网络爬虫,旨在代表压缩成几 GB 大文件的人类集体图像,”Mostaque 说。 “除了非法内容,过滤很少,用户可以随意使用。”

稳定扩散希特勒

由 Stable Diffusion 生成的希特勒形象。图片来源:稳定性人工智能

可能更成问题的是即将发布的用于创建自定义和微调稳定扩散模型的工具。 Vice介绍的“AI 毛茸茸色情生成器”提供了可能发生的情况的预览;一个名叫 CuteBlack 的艺术学生训练了一个图像生成器,通过从毛茸茸的粉丝网站上抓取艺术品来制作拟人化动物生殖器的插图。可能性并不止于色情。从理论上讲,恶意行为者可以在骚乱和血腥图像或宣传图像上微调 Stable Diffusion。

Stability AI 的 Discord 服务器中的测试人员已经在使用 Stable Diffusion 生成一系列其他图像生成服务不允许的内容,包括乌克兰战争的图像、裸体女性、想象中的中国入侵台湾以及对宗教人物的有争议的描绘,例如先知穆罕默德。许多结果带有算法创造的明显迹象,例如不成比例的四肢和不协调的艺术风格组合。但其他人乍一看还过得去。据推测,技术将继续改进。

裸女稳定AI

稳定扩散产生的裸体女性。图片来源:稳定性人工智能

Mostaque 承认,这些工具可能会被不良行为者用来创建“非常讨厌的东西”,CompVis 表示,基准稳定扩散模型的公开发布将“纳入道德考虑”。但莫斯塔克认为——通过免费提供这些工具——它允许社区制定对策。

“我们希望成为协调全球独立和学术开源人工智能的催化剂,以建立重要的基础设施、模型和工具,以最大限度地发挥我们的集体潜力,”Mostaque 说。 “这是一项了不起的技术,可以让人类变得更好,应该是对所有人开放的基础设施。”

稳定扩散泽连斯基

Stable Diffusion 的一代人,提示:“[乌克兰总统 Volodymyr] Zelenskyy 在 Bucha 犯下了罪行。”图片来源:稳定性人工智能

并非所有人都同意,正如关于“GPT-4chan”的争议所证明的那样,“ GPT-4chan ”是一种在 4chan 臭名昭著的有毒讨论板上训练的 AI 模型。 AI 研究员 Yannic Kilcher 今年早些时候在 Hugging Face 上制作了 GPT-4chan——它学会了输出种族主义、反犹太主义和厌恶女性的仇恨言论——这是一个共享训练有素的 AI 模型的中心。在社交媒体和 Hugging Face 的评论部分进行讨论后,Hugging Face 团队首先“关闭”了对该模型的访问权限,然后将其完全删除,但在它被下载了超过一千次之前。

乌克兰战争稳定 AI

Stable Diffusion 生成的“乌克兰战争”图像。图片来源:稳定性人工智能

Meta 最近的聊天机器人惨败说明了保持表面上安全的模型不脱轨的挑战。就在其迄今为止最先进的人工智能聊天机器人 BlenderBot 3 在网络上发布几天后,Meta 被迫面对媒体报道,即该机器人经常发表反犹太主义言论,并重复关于两年前美国前总统唐纳德特朗普赢得连任的虚假声明。

“男孩……”。 #稳定扩散#AIart

哦,美丽的新世界,里面有这样的作品。 #sorrynotsorry pic.twitter.com/gpLQUJkp1T

— Emad (@EMostaque) 2022 年 7 月 27 日

BlenderBot 3 的毒性来自用于训练它的公共网站的偏见。这是人工智能中的一个众所周知的问题——即使在输入过滤后的训练数据时,模型也倾向于放大偏见,比如将男性描绘成高管而女性描绘成助理的照片集。在 DALL-E 2 中,OpenAI 试图通过实施包括数据集过滤在内的技术来解决这个问题,这些技术可以帮助模型生成更多“多样化”的图像。但一些用户声称,在根据某些提示创建图像时,他们使模型的准确性不如以前。

除了训练数据集过滤之外,稳定扩散几乎没有任何缓解措施。那么,有什么办法可以防止有人生成,例如,抗议的照片般逼真的图像、假登月的“证据”和一般的错误信息?真的没什么。但莫斯塔克说这就是重点。

稳定扩散抗议

鉴于迅速“抗议巴西迪尔玛政府 [原文如此]”,Stable Diffusion 创造了这个形象。图片来源:稳定性人工智能

“有一部分人只是不愉快和奇怪,但这就是人性,”莫斯塔克说。 “事实上,我们相信这项技术将会流行,许多人工智能爱好者的家长式和有点居高临下的态度被误导为不信任社会……我们正在采取重要的安全措施,包括制定尖端工具来帮助减轻发布过程中的潜在危害和我们自己的服务。随着数十万人在此模型上进行开发,我们相信净收益将是非常积极的,并且随着数十亿人使用这种技术,危害将被抵消。”

原文: https://techcrunch.com/2022/08/12/a-startup-wants-to-democratize-the-tech-behind-dall-e-2-consequences-be-damned/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Alin Panaitiu
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brent Simmons
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • PostHog
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Slava Akhmechet
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2026 搞英语 → 看世界 | Design: Newspaperly WordPress Theme