Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

测试 Gemini 2.5 Pro 的性能

Posted on 2025-03-26

今天早上 Google Gemini 发布了一个新版本: Gemini 2.5 系列的第一个版本。谷歌称其为“一种思维模型,旨在解决日益复杂的问题”。它已经在LM Arena 排行榜上名列前茅,从最初的印象来看,它可能理应获得第一名。

我刚刚发布了llm-gemini 0.16,为我的LLM命令行工具添加了对新模型的支持。让我们尝试一下。

  • 骑自行车的鹈鹕
  • 转录音频
  • 边界框
  • Gemini 2.5 Pro是一款非常强劲的新机型

骑自行车的鹈鹕

首先,我的经典生成了鹈鹕骑自行车提示的 SVG 。

 #升级插件 llm install -U llm-gemini  #现在运行提示符: llm -m gemini-2.5-pro-exp-03-25 “生成骑自行车的鹈鹕的 SVG ”

相当扎实!

鹈鹕栖息的角度呈一定角度,这表明它需要努力与踏板接触。它有一个很好的大喙。

这是完整的文字记录。

这项任务几乎是不可能的:鹈鹕的形状不适合骑自行车!鉴于此,我认为这是一个很好的尝试 – 我比我之前最喜欢的Claude 3.7 Sonnet更喜欢它,它是一个月前制作的:

自行车有刺,但踏板位置不对,鹈鹕不舒服地栖息在座位上,翅膀看起来很奇怪。

转录音频

我有一个之前实验中混合英语和西班牙语的MP3 。我尝试使用提示transcribe来运行它,看看会发生什么:

 llm -m gemini-2.5-pro-exp-03-25 '转录' \   -a https://static.simonwillison.net/static/2025/Russian-pelican-in-spanish.mp3

我得到了这个,时间戳散布在文本中:

我需要你[0m0s450ms]假装[0m0s880ms]成为[0m0s990ms]加州[0m1s560ms]棕色[0m1s850ms]鹈鹕[0m2s320ms]和[0m2s480ms]非常[0m2s990ms]厚[ 0m3s290ms ] 俄语 [ 0m3s710ms ] 口音,[ 0m4s110ms ] 但 [ 0m4s540ms ] 你 [ 0m4s640ms ] 与我 [ 0m4s830ms ] 完全用西班牙语 [ 0m5s660ms ] 交谈。 [ 0m6s200ms ] 奥耶,[ 0m8s930ms ] 卡马拉达,[ 0m9s570ms ] aquí [ 0m10s240ms ] está [ 0m10s590ms ] tu [ 0m10s740ms ] pelícano [ 0m11s370ms ] californiano [ 0m12s320ms ] con [ 0m12s520ms ] acento [ 0m13s100ms ] ruso。 [ 0m13s540ms ] Qué [ 0m14s230ms ] tal,[ 0m14s570ms ] tovarisch? [ 0m15s210ms ] Listo [ 0m15s960ms ] 段落 [ 0m16s190ms ] charlar [ 0m16s640ms ] en [ 0m16s750ms ] 西班牙语? [ 0m17s250ms ] 今天 [ 0m19s834ms ] 你的 [ 0m19s944ms ] 天 [ 0m20s134ms ] 过得怎么样? [ 0m20s414ms ] Mi [ 0m22s654ms ] día [ 0m22s934ms ] ha [ 0m23s4ms ] sido [ 0m23s464ms ] volando [ 0m24s204ms ] sobre [ 0m24s594ms ] las [ 0m24s844ms ] ] olas,[0m25s334ms]buscando[0m26s264ms]peces[0m26s954ms]y[0m27s84ms]disfrutando[0m28s14ms]del[0m28s244ms]sol[0m28s664ms]californiano。 [ 0m29s444ms ] Y [ 0m30s314ms ] tú,[ 0m30s614ms ] amigo,¿ [ 0m31s354ms ] como [ 0m31s634ms ] ha [ 0m31s664ms ] estado [ 0m31s984ms ] tu [ 0米32秒134毫秒] 迪亚? [0分32秒424毫秒]

这启发我再次尝试,这次包括JSON 模式(使用 LLM 的自定义模式 DSL):

 llm -m gemini-2.5-pro-exp-03-25 '转录' \   -a https://static.simonwillison.net/static/2025/Russian-pelican-in-spanish.mp3 \   --schema-multi '时间戳str:mm:ss,文本,语言:两个字母代码'

我从中得到了很好的回应:

 {   “项目” : [     {       “语言” : “ en ” ,       "text" : "我需要你假装成一只带有浓重俄罗斯口音的加州棕鹈鹕,但你只能用西班牙语跟我说话。 " ,       “时间戳” : “ 00:00 ”     },     {       “语言” : “ es ” ,       "text" : "哦,卡马拉达。Aquí está tu pelícano californiano con acento ruso。 " ,       “时间戳” : “ 00:08 ”     },     {       “语言” : “ es ” ,       "text" : " ¿Qué tal, Tovarish? ¿Listo para charlar en español? " ,       “时间戳” : “ 00:13 ”     },     {       “语言” : “ en ” ,       "text" : "今天过得怎么样? " ,       “时间戳” : “ 00:19 ”     },     {       “语言” : “ es ” ,       "text" : " Mi día ha sido volando sobre las olas,buscando peces y disfrutando del sol californiano. " ,       “时间戳” : “ 00:22 ”     },     {       “语言” : “ es ” ,       "text" : " ¿Y tú, amigo, como ha estado tu día? " ,       “时间戳” : “ 00:30 ”     }   ] }

我确认时间戳与音频匹配。这太棒了。

让我们用我正在收听的播客节目的十分钟片段来尝试一下:

 llm -m gemini-2.5-pro-exp-03-25 \   '抄录,第一位发言者是克里斯托弗,第二位是西蒙' \   -十分钟的播客.mp3 \   --schema-multi '时间戳 str: mm:ss, 文本, 发言者名称'

有用的 LLM 技巧:您可以使用llm logs -c --data从最近的提示响应中获取 JSON 数据,所以我运行了以下命令:

 llm 日志-c --data |杰克

这是完整的输出 JSON ,其开始和结束如下:

 {   “项目” : [     {       "speaker_name" : "克里斯托弗" ,       “text” : “就其本身而言,它有点像森林里的一棵老树,你知道,你建造的那种东西,所以。 ” ,       “时间戳” : “ 00:00 ”     },     {       "speaker_name" : "西蒙" ,       "text" : "我也觉得在线写作,永远不要把东西放在网上只是指望人们找到它。你必须这样做。所以拥有博客的好处之一就是我可以就某件事进行对话,有人提出问题,我可以说,哦,我在两年半前写过这件事,并给人们一个链接。 " ,       “时间戳” : “ 00:06 ”     },      {       "speaker_name" : "西蒙" ,       "text" : "所以在此基础上,Chat 和我不记得 Chat GPT 的免费版本是否有代码解释器。 " ,       “时间戳” : “ 09:45 ”     },     {       "speaker_name" : "西蒙" ,       "text" : "我希望我这么认为。 " ,       “时间戳” : “ 09:50 ”     },     {       "speaker_name" : "克里斯托弗" ,       "text" : "好的。所以这就像基本的付费服务,可能是每月 20 美元,因为我知道有一个 200 美元的服务,对于基本的付费服务来说有点贵" ,       “时间戳” : “ 09:51 ”     }   ] }

对时间戳的抽查显示它们位于正确的位置。 Gemini 2.5 支持长上下文提示,因此这可能适用于更长的音频文件 – 深入挖掘并尝试一下会很有趣。

边界框

我最喜欢的以前 Gemini 模型的功能之一是它们对边界框的支持:您可以提示它们返回图像中对象周围的框。

去年 8 月,我构建了一个单独的工具来试验此功能,我在构建一个展示 Gemini Pro 如何返回图像中对象的边界框的工具中对此进行了描述。我现在已经升级了该工具以添加对新模型的支持。

您可以通过tools.simonwillison.net/gemini-bbox访问它 – 您需要提供自己的 Gemini API 密钥,该密钥会从您的浏览器直接发送到他们的 API(不会由中介记录)。

我在一些鹈鹕的具有挑战性的照片上尝试了它……并且效果非常好:

我的提示是:

Return bounding boxes around pelicans as JSON arrays [ymin, xmin, ymax, xmax]

Gemini 模型都经过训练,可以返回缩放范围在 0 到 100 之间的边界框。我的工具知道如何将它们转换回与输入图像相同的尺寸。

可视化结果如下所示:

鹈鹕周围有边界框

几乎全部都被它拿走了!我喜欢它没有在照片中的一只白鹭周围画一个方框。

Gemini 2.5 Pro是一款非常强劲的新机型

到目前为止,我对 Gemini 2.5 Pro 的试用还没有触及皮毛。其创意写作如何?关于世界的事实知识?它能用 Python、JavaScript、Rust 等编写出色的代码吗?

Gemini 系列型号具有与其他型号不同的功能:

  • 上下文长度长 – Gemini 2.5 Pro 支持多达 100 万个令牌
  • 音频输入 – 很少有其他型号支持的东西,当然不支持这种长度和这种级别的时间戳精度
  • 图像输入的准确边界框检测

到目前为止,我对这些功能的实验表明,Gemini 2.5 Pro确实是一款非常强大的新型号。我期待着探索它的更多功能。

标签:谷歌、人工智能、生成人工智能、 LLMS 、双子座、视觉LLMS 、鹈鹕骑自行车、 LLM-发布

原文: https://simonwillison.net/2025/Mar/25/gemini/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • Elad Gil
  • Ellie Huxtable
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme