谷歌为 Vertex AI 带来了新的生成模型，包括 Imagen

用安德森·霍洛维茨 (Andreessen Horowitz)的话说，生成式人工智能，尤其是在文本到艺术方面，正在吞噬世界。至少，投资者是这么认为的——从他们向初创公司投入的数十亿美元来看，这些初创公司正在开发根据提示创建文本和图像的人工智能。

为了不落伍，Big Tech 正在投资于自己的生成式 AI 艺术解决方案，无论是通过与上述初创公司的合作还是内部研发。（请参阅：Microsoft 与 OpenAI 合作开发Image Creator。）谷歌利用其强大的研发部门，决定走后一条路线，将其在生成 AI 方面的工作商业化，以与现有平台竞争。

今天在其年度 I/O 开发者大会上，谷歌宣布了新的人工智能模型前往Vertex AI ，这是其完全托管的人工智能服务，包括一个名为 Imagen 的文本到图像模型。谷歌去年 11 月通过其AI Test Kitchen应用程序预览的 Imagen 可以生成和编辑图像以及为现有图像编写标题。

“任何开发人员都可以通过谷歌云使用这项技术，”谷歌云 Vertex AI 主管 Nenshad Bardoliwalla 在电话采访中告诉 TechCrunch。 “你不需要成为数据科学家或开发人员。”

顶点成像

在 Vertex 中开始使用 Imagen 确实是一个相对简单的过程。该模型的用户界面可从谷歌所谓的模型花园访问，模型花园是谷歌开发的一系列模型以及精选的开源模型。在 UI 中，类似于 MidJourney 和 Nightcafe 等生成艺术平台，客户可以输入提示（例如“紫色手提包”）让 Imagen 生成一些候选图像。

编辑工具和后续提示改进了 Imagen 生成的图像，例如调整其中描绘的对象的颜色。 Vertex 还提供用于锐化图像的升级，以及允许客户将 Imagen 转向特定风格和偏好的微调。

如前所述，Imagen 还可以为图像生成标题，可选择利用 Google Translate 翻译这些标题。 Bardoliwalla 说，为了遵守 GDPR 等隐私法规，未保存的生成图像将在 24 小时内删除。

“我们让人们很容易开始使用生成式人工智能和他们的图像，”他补充道。

当然，无论 UI 多么精美，所有形式的生成式 AI 都会面临许多道德和法律挑战。 Imagen 等 AI 模型通过对现有图像进行“训练”，“学习”根据文本提示生成图像，这些图像通常来自通过拖网公共图像托管网站拼凑而成的数据集。一些专家建议，使用公共图片（即使是受版权保护的图片）的训练模型将受到美国合理使用原则的保护，但这件事不太可能很快得到解决。

Google 的 Imagen 模型在 Vertex AI 中的实际应用。

也就是说，流行的人工智能艺术工具背后的两家公司Midjourney和Stability AI正处于一起法律案件的十字路口，该案件指控他们通过在网络抓取的图像上训练他们的工具侵犯了数百万艺术家的权利。图片供应商 Getty Images 已分别将 Stability AI 告上法庭，据报道，该公司未经许可使用其网站上的数百万张图片来训练艺术生成模型 Stable Diffusion。

我问Bardoliwalla Vertex 客户是否应该担心 Imagen 可能接受过版权材料方面的培训。可以理解，如果是这样的话，他们可能会被阻止使用它。

“我们必须确保我们完全在尊重与版权信息有关的所有法律的平衡范围内，” Bardoliwalla 继续说道。 “我们对客户非常清楚，我们为他们提供的模型让他们有信心可以在工作中使用，并且他们以完全安全的方式拥有从他们训练有素的模型中生成的 IP。”

拥有IP是另一回事。至少在美国，人工智能生成的艺术作品是否受版权保护尚不清楚。

一种解决方案——不是针对所有权问题本身，而是针对受版权保护的训练数据的问题——是允许艺术家完全“选择退出”人工智能训练。 AI 初创公司Spawning正试图建立行业范围的标准和工具，以选择退出生成式 AI 技术。 Adobe 正在寻求自己的退出机制和工具。 DeviantArt 也是如此，它在 11 月推出了基于 HTML 标签的保护，以禁止软件机器人抓取图像页面。

图片来源：谷歌

Google 不提供退出选项。（公平地说，它的主要竞争对手之一 OpenAI 也没有。） Bardoliwalla 没有说这在未来是否会改变，只是说谷歌“非常关注”确保它以“道德”的方式训练模型和负责。”

我认为这有点丰富，因为一家公司取消了外部人工智能伦理委员会，迫使著名的人工智能伦理研究人员离开，并正在减少发表人工智能研究以“竞争并将知识保留在内部”。但请随心所欲地解读巴尔多利瓦拉的话。

我还询问了Bardoliwalla谷歌是否采取了任何措施来限制 Imagen 创建的有毒或有偏见的内容的数量——这是生成式人工智能系统的另一个问题。就在最近，AI 创业公司 Hugging Face 和莱比锡大学的研究人员发布了一个工具，证明 Stable Diffusion 和 OpenAI 的DALL-E 2等模型倾向于生成看起来像白人和男性的图像，尤其是当被要求描绘处于权威地位的人时。

Bardoliwalla 为这个问题准备了更详细的答案，声称对 Vertex 托管的生成模型的每个 API 调用都会评估“安全属性”，包括毒性、暴力和淫秽内容。 Bardoliwalla 说，Vertex 对这些属性的模型进行评分，并且对于某些类别，阻止响应或让客户选择如何进行。

“我们从我们的消费者属性中非常了解我们的客户可能不是我们的客户正在寻找这些生成 AI 模型来生产的内容类型，”他继续说道。 “这是谷歌的重大投资领域和市场领导地位——我们要确保我们的客户能够产生他们正在寻找的结果，而不会损害或损害他们的品牌价值。”

为此，谷歌推出了基于人类反馈的强化学习 (RLHF) 作为 Vertex 中的托管服务产品，它声称这将帮助组织随着时间的推移保持模型性能，并在生产中部署更安全且可测量的更准确的模型。 RLHF 是机器学习中的一种流行技术，它直接根据人类反馈训练“奖励模型”，例如要求合同工对 AI 聊天机器人的响应进行评分。然后，它使用这个奖励模型来优化 Imagen 的生成式 AI 模型。

图片来源：谷歌

Bardoliwalla 表示，通过 RLHF 所需的微调量将取决于客户试图解决的问题的范围。学术界对 RLHF 是否始终是正确的方法存在争论——人工智能初创公司 Anthropic 认为它不是，部分原因是 RLHF 可能需要雇用大量低薪承包商，这些承包商被迫对极其有害的内容进行评级。但谷歌的感觉不同。

“通过我们的 RLHF 服务，客户可以选择一种模式和模型，然后对来自模型的响应进行评分，” Bardoliwalla 说。 “一旦他们将这些响应提交给强化学习服务，它就会调整模型以生成更好的响应，这些响应与……组织正在寻找的内容保持一致。”

新模型和工具

谷歌今天宣布，除了 Imagen 之外，还有其他几个生成式 AI 模型可供选择的 Vertex 客户使用：Codey 和 Chirp。

Codey 是 Google 对 GitHub 的 Copilot 的回应，可以生成 20 多种语言的代码，包括 Go、Java、Javascript、Python 和 Typescript。 Codey 可以根据提示中输入的代码上下文建议接下来的几行，或者像 OpenAI 的ChatGPT一样，该模型可以回答有关调试、文档和高级编码概念的问题。

图片来源：谷歌

至于 Chirp，它是一种经过“数百万”小时音频训练的语音模型，支持 100 多种语言，可用于为视频添加字幕，提供语音帮助，并通常为一系列语音任务和应用程序提供支持。

在 I/O 的相关公告中，谷歌推出了 Vertex 的 Embeddings API 预览版，它可以将文本和图像数据转换为称为向量的表示形式，映射特定的语义关系。谷歌表示，它将用于构建语义搜索和文本分类功能，例如基于组织数据、情绪分析和异常检测的问答聊天机器人。

谷歌表示，Codey、Imagen、用于图像的嵌入 API 和 RLHF 在 Vertex AI 中可供“受信任的测试人员”使用。 Chirp、Embeddings API 和 Generative AI Studio，一个用于与 AI 模型交互和部署的套件，同时，任何拥有 Google Cloud 帐户的人都可以在 Vertex 中预览。

谷歌为 Vertex AI 带来了新的生成模型，包括最初发表在TechCrunch上的Kyle Wiggers的 Imagen

原文： https://techcrunch.com/2023/05/10/google-brings-new-generative-models-to-vertex-ai-including-imagen/