在预览中使用 Gemini 2.0 创建和编辑图像

Gemini 2.0 Flash 具有图像生成功能已经有一段时间了，现在可以通过付费的 Gemini API 获得 – 每个生成图像的费用为 3.9 美分。

根据API 文档，您需要使用新的gemini-2.0-flash-preview-image-generation模型 ID 并指定{"responseModalities":["TEXT","IMAGE"]}作为请求的一部分。

以下是使用curl调用API的示例（并从llm keys get获取存储中获取Gemini密钥）：

卷曲-s -X POST \   “ https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image- Generation:generateContent?key= $( llm 密钥获取 Gemini ) “ \   -H “内容类型：application/json ” \   -d ' {  “内容”： [{  “部分”： [  {“text”：“垃圾桶里的浣熊的照片，上面有爪子写的标语，上面写着我喜欢垃圾”}  ]  }],  " GenerationConfig":{"responseModalities":["TEXT","IMAGE"]}  } ' > /tmp/raccoon.json

这是回应。我让 Gemini 2.5 Pro为我编写了一个新的调试工具，用于可视化该 JSON。如果您访问该工具并单击“加载示例”链接，您将看到浣熊图像的可视化结果：

从 Gemini 图像生成工具渲染 JSON。在此处粘贴 Gemini JSON：一堆带有 base64 编码的 PNG 的 JSON。然后按钮加载一个示例，或者一个非常大的（40MB）示例或渲染 JSON。渲染内容显示了一张浣熊的照片，照片上一只浣熊放在一个敞篷垃圾箱里，上面举着一个牌子，上面写着“我喜欢垃圾”。

我尝试过的另一个提示是：

提供黄油鸡的素食食谱，但用鹰嘴豆而不是鸡肉，并沿途包含许多内联插图

结果是一个41MB 的 JSON 文件（！），其中包含 28 张图像 – 其成本可能超过 1 美元，因为每张图像售价 3.9 美分。

它为此选择的一些插图有些出乎意料：

文字如下：“* 1/2 茶匙克什米尔辣椒粉（或口味较温和的辣椒粉）”，然后是一张穿着正装、黑色西装、打着浅蓝色领带的人们在户外排成一排的合影，然后是“* 1/2 杯浓奶油（或纯素食选择的椰子奶油）”，然后是干孜然籽或类似棕色香料的特写图片。

如果您想查看该示例，可以单击调试工具中的“加载一个真正大的示例”链接，然后等待浏览器获取并呈现完整的 41MB JSON 文件。

Gemini 最有趣的功能（与 GPT-4o 图像一样）是能够接受图像作为输入。我用这张鹈鹕照片尝试了一下，如下所示：

猫> /tmp/request.json << EOF {  “内容”： [{  “部分”：[  {"text": "修改这张照片以添加不合适的帽子"},  {  “内联数据”：{  "mime_type":"图像/jpeg",  “数据”：“ $（ base64 -i pelican.jpg ） ”  }  }  ]  }],  “ GenerationConfig”：{“responseModalities”：[“TEXT”，“IMAGE”]} } EOF  #使用JSON文件执行curl命令 卷曲-X POST \   ' https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image- Generation:generateContent?key= ' $( llm 密钥获取 Gemini ) \   -H '内容类型：application/json ' \   -d @/tmp/request.json \   > /tmp/out.json

现在鹈鹕戴上了帽子：

一只张开翅膀的鹈鹕，戴着一顶不合适的粉色圆顶礼帽。帽子看起来有点粘上去。

通过黑客新闻

标签：视觉 LLMS 、文本到图像、 Gemini 、 Generative-ai 、 AI 、 LLMS 、 Vivi-coding 、工具

原文： https://simonwillison.net/2025/May/7/gemini-images-preview/#atom-everything