谷歌 DeepMind 的全新“纳米香蕉”模型(正式名称为 Gemini 2.5 Flash Image)凭借比以往更加一致的编辑效果,荣登 AI 图像编辑排行榜榜首。该模型今日正式登陆 Gemini 应用。Ars Technica 对此进行了详细介绍:AI 图像编辑功能可让您根据提示修改图像,而无需在 Photoshop 中费力地进行修改。谷歌于今年早些时候首次在 Gemini 中提供编辑功能,该模型从一开始就表现出色。但与所有生成系统一样,其非确定性特性意味着图像元素通常会以不可预测的方式发生变化。谷歌表示,纳米香蕉(技术上称为 Gemini 2.5 Flash Image)在编辑过程中拥有无与伦比的一致性——它可以记住细节,而不是每次更改时都像掷骰子一样。这为 AI 图像编辑带来了一些有趣的用途。谷歌建议上传人物照片,并更改其风格或着装。例如,你可以将某人重新想象成斗牛士或 90 年代情景喜剧中的角色。由于纳米香蕉模型可以通过编辑保持一致性,因此结果应该仍然看起来像原始源图像中的人。连续进行多次编辑也是如此。谷歌表示,即使经过多次编辑,结果也应该看起来像原始源材料。Gemini 增强的图像编辑功能还可以合并多张图片,让你可以将它们用作所选新图片的素材。下面的谷歌示例分别拍摄了一位女士和一只狗的照片,并使用它们生成了一张狗被拥抱的新快照——这可能是迄今为止对生成式人工智能的最佳运用。Gemini 图像编辑还可以以更抽象的方式合并事物,并将按照你的提示创建几乎任何不违反模型规定的东西。
在 Slashdot 上阅读更多内容。