Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

在预览中使用 Gemini 2.0 创建和编辑图像

Posted on 2025-05-08

在预览中使用 Gemini 2.0 创建和编辑图像

Gemini 2.0 Flash 具有图像生成功能已经有一段时间了,现在可以通过付费的 Gemini API 获得 – 每个生成图像的费用为 3.9 美分。

根据API 文档,您需要使用新的gemini-2.0-flash-preview-image-generation模型 ID 并指定{"responseModalities":["TEXT","IMAGE"]}作为请求的一部分。

以下是使用curl调用API的示例(并从llm keys get获取存储中获取Gemini密钥):

卷曲-s -X POST \   “ https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image- Generation:generateContent?key= $( llm 密钥获取 Gemini ) “ \   -H “内容类型:application/json ” \   -d ' {  “内容”: [{  “部分”: [  {“text”:“垃圾桶里的浣熊的照片,上面有爪子写的标语,上面写着我喜欢垃圾”}  ]  }],  " GenerationConfig":{"responseModalities":["TEXT","IMAGE"]}  } ' > /tmp/raccoon.json

这是回应。我让 Gemini 2.5 Pro为我编写了一个新的调试工具,用于可视化该 JSON。如果您访问该工具并单击“加载示例”链接,您将看到浣熊图像的可视化结果:

从 Gemini 图像生成工具渲染 JSON。在此处粘贴 Gemini JSON:一堆带有 base64 编码的 PNG 的 JSON。然后按钮加载一个示例,或者一个非常大的(40MB)示例或渲染 JSON。渲染内容显示了一张浣熊的照片,照片上一只浣熊放在一个敞篷垃圾箱里,上面举着一个牌子,上面写着“我喜欢垃圾”。

我尝试过的另一个提示是:

提供黄油鸡的素食食谱,但用鹰嘴豆而不是鸡肉,并沿途包含许多内联插图

结果是一个41MB 的 JSON 文件(!),其中包含 28 张图像 – 其成本可能超过 1 美元,因为每张图像售价 3.9 美分。

它为此选择的一些插图有些出乎意料:

文字如下:“* 1/2 茶匙克什米尔辣椒粉(或口味较温和的辣椒粉)”,然后是一张穿着正装、黑色西装、打着浅蓝色领带的人们在户外排成一排的合影,然后是“* 1/2 杯浓奶油(或纯素食选择的椰子奶油)”,然后是干孜然籽或类似棕色香料的特写图片。

如果您想查看该示例,可以单击调试工具中的“加载一个真正大的示例”链接,然后等待浏览器获取并呈现完整的 41MB JSON 文件。

Gemini 最有趣的功能(与 GPT-4o 图像一样)是能够接受图像作为输入。我用这张鹈鹕照片尝试了一下,如下所示:

猫> /tmp/request.json << EOF {  “内容”: [{  “部分”:[  {"text": "修改这张照片以添加不合适的帽子"},  {  “内联数据”:{  "mime_type":"图像/jpeg",  “数据”:“ $( base64 -i pelican.jpg ) ”  }  }  ]  }],  “ GenerationConfig”:{“responseModalities”:[“TEXT”,“IMAGE”]} } EOF  #使用JSON文件执行curl命令 卷曲-X POST \   ' https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-preview-image- Generation:generateContent?key= ' $( llm 密钥获取 Gemini ) \   -H '内容类型:application/json ' \   -d @/tmp/request.json \   > /tmp/out.json

现在鹈鹕戴上了帽子:

一只张开翅膀的鹈鹕,戴着一顶不合适的粉色圆顶礼帽。帽子看起来有点粘上去。

通过黑客新闻

标签:视觉 LLMS 、文本到图像、 Gemini 、 Generative-ai 、 AI 、 LLMS 、 Vivi-coding 、工具

原文: https://simonwillison.net/2025/May/7/gemini-images-preview/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Elad Gil
  • Ellie Huxtable
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Lou Plummer
  • Luke Wroblewski
  • Matt Stoller
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme