经过数月的预览,Gemini 2.5 Pro 和 Flash 现已正式发布,并拥有了令人难忘的新型号 ID: gemini-2.5-pro
和gemini-2.5-flash
。此外,还推出了一个名称略显平淡的预览型号: gemini-2.5-flash-lite-preview-06-17
这是 Gemini 2.5 Flash Lite 的全新型号,价格更低,推理速度更快。
我在llm-gemini 0.23中添加了对新模型的支持:
llm install -U llm-gemini llm 'Generate an SVG of a pelican riding a bicycle' \ -m gemini-2.5-flash-lite-preview-06-17
此外,还有一份新的Gemini 2.5 技术报告 (PDF) ,其中包含一些关于长上下文以及音频和视频支持的有趣细节。以下是一些亮点:
Gemini 1.5 专注于母语音频理解任务,例如转录、翻译、摘要和问答,而除了理解之外,Gemini 2.5 还经过训练可以执行音频生成任务,例如文本转语音或母语视听转音频输出对话。[…]
我们的 Gemini 2.5 预览版 TTS Pro 和 Flash 模型支持 80 多种语言,其语音风格由自由格式的提示控制,提示可指定风格、情感、语速等,同时还能遵循转录文本中指定的更细粒度的引导指令。值得注意的是,Gemini 2.5 预览版 TTS 可以生成多说话人语音,从而支持创建类似 NotebookLM Audio Overviews 中使用的播客。[…]
我们还训练了我们的模型,使它们每帧使用 66 个而不是 258 个视觉标记,从而能够在 1M 标记上下文窗口内使用大约 3 小时而不是 1 小时的视频。[…]
附录 8.5 中展示了这些改进的视频回忆功能的示例,其中 Gemini 2.5 Pro 能够从整整 46 分钟的视频中持续回忆起 1 秒的视觉事件。
这份报告还包含了整整六页对独立直播Gemini_Plays_Pokemon 的Twitch 直播的分析!Drew Breunig 对这部分内容进行了风趣而深刻的分析,并附上了自己的一些评论:
冗长的上下文阻碍了 Gemini 的游戏体验。代理的重点在于信息控制,即将内容放入上下文中。虽然基准测试证明了 Gemini 从海量上下文中检索事实的卓越能力,但利用冗长的上下文来指导宝可梦决策却导致性能下降:“随着上下文显著超过 10 万个 token,代理倾向于重复其庞大历史记录中的动作,而不是综合新的计划。” 这是一个重要的教训,它强调了在设计代理时构建自己的评估的必要性,因为基准测试的表现可能会让你误入歧途。
让我们通过新模型进行一些实验。
骑自行车的鹈鹕
这里有一些鹈鹕骑自行车的 SVG !
gemini-2.5-pro ——4,226 个输出代币,4.2274 美分:
gemini-2.5-flash – 14,500 个输出令牌,3.6253 美分(这里使用了数量惊人的输出令牌,因此成本几乎与 2.5 Pro 相当):
gemini-2.5-flash-lite-preview-06-17 – 2,070 个输出代币,0.0829 美分:
从 Twitter Space 转录音频
Gemini 团队今早举办了Twitter 空间,与 Logan Kilpatrick、Tulsee Doshi、Melvin Johnson、Anca Dragan 和 Zachary Gleicher 一起探讨了新模型。我使用yt-dlp获取了音频副本,并用ffmpeg
将其缩小了一点(这是生成的2.5_smaller.m4a文件),然后尝试使用新模型生成了文字记录:
llm --at gemini-2.5_smaller.m4a audio/mpeg \ -m gemini/gemini-2.5-flash \ 'Full transcript with timestamps' \ --schema-multi 'timestamp:mm:ss,speaker:best guess at name,text'
我从 2.5 Pro (74,073 输入,8,856 输出 = 18.1151 美分)和2.5 Flash (74,073 输入音频,10,477 输出 = 10.026 美分)获得了良好的结果,但新的 Flash Lite 模型在成绩单部分陷入了循环( 6.3241 美分):
... But this model is so cool because it just sort of goes on this rant, this hilarious rant about how the toaster is the pinnacle of the breakfast civilization, and then it makes all these jokes about the toaster. Um, like, what did the cows bring to you? Nothing. And then, um, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh, and then, uh...
(继续,直到输出令牌用完)
我让 Claude 4 Sonnet vibe 为我编写了一个快速工具,用于将 JSON 转换为 Markdown,这是 Gemini 2.5 Flash 成绩单的Markdown 转换。
对时间戳的抽查似乎证实了它们出现在正确的位置,并且说话者姓名的猜测看起来也大多是正确的。
Flash 2.5 版的定价已更改
Gemini 的定价发生了一些变化。
2.5 Flash 和 2.5 Flash-Lite Preview 模型对文本和音频输入令牌收取不同的价格。
- 2.5 Flash 的价格为每百万条文本 0.30 美元,每百万条音频 1 美元。
- 2.5 Flash Lite Preview 的文本价格为每百万 0.10 美元,音频价格为每百万 0.50 美元。
我认为这意味着我不能相信模型的原始输出标记计数,而需要查看[{"modality": "TEXT", "tokenCount": 5}, {"modality": "AUDIO", "tokenCount": 74068}]
,这令人沮丧。
我希望他们对两种类型的代币保持相同的价格,并在计算音频代币时使用倍数,但据推测这会打破整体代币限制数量。
Gemini 2.5 Flash 的定价与 Gemini 2.5 Flash 预览版的定价截然不同。预览版的思考模式和非思考模式的收费标准有所不同。
2.5 Flash预览:每百万输入文字/图片/视频0.15美元,每百万输入音频1美元,非思考模式下每百万输出0.60美元,思考模式下每百万输出3.50美元。
新的 2.5 Flash 更简单:每百万输入文本/图像/视频 0.30 美元(两倍),每百万音频输入 1 美元(相同),每百万输出 2.50 美元(比非思考模式多但比思考模式少)。
他们在 Twitter Space 上提到,2.5 Flash Preview 中思考模式和非思考模式之间的区别已经造成了很多困惑,而新的价格对于思考模式用户来说应该会更便宜。在非思考模式下使用该模式总是有点奇怪,希望新的 2.5 Flash Lite 能够更好地适应这种情况(尽管它实际上也是一种“思考”模式)。
我已在我的llm-prices.com网站上更新了新车型的价格。
标签:双子座、法学硕士、法学硕士推理、鹈鹕骑自行车、法学硕士定价、人工智能、法学硕士、法学硕士发布、谷歌、生成式人工智能
原文: https://simonwillison.net/2025/Jun/17/gemini-2-5/#atom-everything