GPT-4o令人惊叹的本机图像生成功能(这一功能仍然没有明显的名称)现在可以通过 OpenAI 的 API 获得。
由于这是真正的多模态模型功能 – 图像是使用 GPT-4o 变体创建的,现在可以输出文本、音频和图像 – 我原本预计这将作为聊天完成或响应 API 的一部分。相反,他们选择将其添加到之前用于 DALL-E 的现有/v1/images/generations
API 中。
他们给它起了一个可怕的名字gpt-image-1——这个名字根本没有暗示底层的 GPT-4o。
我正在考虑通过我的llm-openai 插件添加对它的支持作为自定义 LLM 子命令,请参阅该存储库中的问题 #18 。
标签: generative-ai 、 openai 、 api 、 ai 、文本到图像
原文: https://simonwillison.net/2025/Apr/24/openai-images-api/#atom-everything