Gemini 2.0 Flash 具有图像生成功能已经有一段时间了,现在可以通过付费的 Gemini API 获得 – 每个生成图像的费用为 3.9 美分。
根据API 文档,您需要使用新的gemini-2.0-flash-preview-image-generation
模型 ID 并指定{"responseModalities":["TEXT","IMAGE"]}
作为请求的一部分。
以下是使用curl
调用API的示例(并从llm keys get
获取存储中获取Gemini密钥):
卷曲-s -X POST \ “ https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image- Generation:generateContent?key= $( llm 密钥获取 Gemini ) “ \ -H “内容类型:application/json ” \ -d ' { “内容”: [{ “部分”: [ {“text”:“垃圾桶里的浣熊的照片,上面有爪子写的标语,上面写着我喜欢垃圾”} ] }], " GenerationConfig":{"responseModalities":["TEXT","IMAGE"]} } ' > /tmp/raccoon.json
这是回应。我让 Gemini 2.5 Pro为我编写了一个新的调试工具,用于可视化该 JSON。如果您访问该工具并单击“加载示例”链接,您将看到浣熊图像的可视化结果:
我尝试过的另一个提示是:
提供黄油鸡的素食食谱,但用鹰嘴豆而不是鸡肉,并沿途包含许多内联插图
结果是一个41MB 的 JSON 文件(!),其中包含 28 张图像 – 其成本可能超过 1 美元,因为每张图像售价 3.9 美分。
它为此选择的一些插图有些出乎意料:
如果您想查看该示例,可以单击调试工具中的“加载一个真正大的示例”链接,然后等待浏览器获取并呈现完整的 41MB JSON 文件。
Gemini 最有趣的功能(与 GPT-4o 图像一样)是能够接受图像作为输入。我用这张鹈鹕照片尝试了一下,如下所示:
猫> /tmp/request.json << EOF { “内容”: [{ “部分”:[ {"text": "修改这张照片以添加不合适的帽子"}, { “内联数据”:{ "mime_type":"图像/jpeg", “数据”:“ $( base64 -i pelican.jpg ) ” } } ] }], “ GenerationConfig”:{“responseModalities”:[“TEXT”,“IMAGE”]} } EOF #使用JSON文件执行curl命令 卷曲-X POST \ ' https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image- Generation:generateContent?key= ' $( llm 密钥获取 Gemini ) \ -H '内容类型:application/json ' \ -d @/tmp/request.json \ > /tmp/out.json
现在鹈鹕戴上了帽子:
通过黑客新闻
标签:视觉 LLMS 、文本到图像、 Gemini 、 Generative-ai 、 AI 、 LLMS 、 Vivi-coding 、工具
原文: https://simonwillison.net/2025/May/7/gemini-images-preview/#atom-everything