Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

尝试 QvQ – Qwen 的新视觉推理模型

Posted on 2024-12-25

我以为我们已经完成了 2024 年主要模型发布的任务,但显然没有:阿里巴巴的 Qwen 团队刚刚放弃了 Apache2 2 许可的 QvQ-72B-Preview,“一个专注于增强视觉推理能力的实验研究模型”。

他们的博客文章标题为《QvQ:用智慧看世界》——与几周前 11 月的 QwQ 公告《QwQ:深入思考未知的边界》类似的华丽语言。

这是我之前写过的QwQ 的以愿景为中心的后续作品。 QwQ 是一个令人印象深刻的公开许可的推理扩展模型:给它一个提示,它会大声思考许多标记,同时尝试得出一个好的答案,类似于 OpenAI 的 o1 和 o3 模型。

新的 QvQ 为组合增添了视觉感。您可以在 Hugging Face Spaces 上尝试一下 – 它接受一张图像和一个提示,然后输出一个很长的响应,其中它会思考您提出的问题。没有发送后续提示的选项。

我已经尝试过很多东西,结果好坏参半——但看到它如何解决问题真的很有趣。

我最成功的提示是用这张图片“数鹈鹕”:

四只年轻的加州褐鹈鹕栖息在码头上的照片。照片前面可以看到另一只鹈鹕的后端。

这是完整的回复。一些亮点:

我有一些鹈鹕的照片,我需要数一下它们。让我想想…首先,我知道鹈鹕是那些有着巨大喙的大鸟,对吗? […]

让我再试着数一下,这次更仔细一些。从左边开始:

  1. 第一只鹈鹕完全可见,站在前面。
  2. 在它后面稍稍偏右的地方,是第二只鹈鹕。
  3. 然后,再往后,还有第三只鹈鹕。
  4. 在那只鹈鹕旁边,还有第四只鹈鹕。

所以,总共有四只鹈鹕。但是,我注意到在图像的最右侧,有另一只鸟的一部分,可能是鹈鹕的背部或尾羽,但它没有完全在框架中,所以我认为我不应该将其算作整个鹈鹕。

它使用的语气有点让我发痒,“首先,我知道鹈鹕是那些长着巨大喙的大鸟,对吗?”。

我还在一张更难的图像上尝试过这个方法 – 它数到了 17,这对我来说看起来差不多,但说实话,我自己对这个图像有麻烦。

我输入了 o3 失败的ARC-AGI 谜题之一。

带有彩色方块的拼图,在单个蓝色方块之间画一条线并将任何相交的矩形变成蓝色显然是解决方案。

它产生了一个非常长的思想链,几乎完全不正确,但其中有一些有趣的“想法”:

[…] 让我尝试用细胞自动机规则来思考,比如康威的生命游戏。

在生命游戏中,下一代每个细胞的状态由其当前状态及其八个邻居的状态决定。

也许类似的规则也适用于此。

最后,我要求它根据这张图像“估计恐龙的高度”(正如它正确指出的那样,它实际上是一条充气龙):

大型充气圣诞装饰驯鹿骑着龙-驯鹿和龙都戴着圣诞帽

鉴于框架中缺乏具有相当已知高度的物品,我不确定这项任务是否可能。不过它做得很好!我特别喜欢它的开头:

我有了这个充气圣诞装饰品,它是一条龙!但它不是普通的龙——它是一条戴着圣诞帽、戴着红白围巾的绿龙。瞧,它的背上有一只驯鹿,也戴着圣诞帽,握着龙的翅膀。它非常喜庆,色彩缤纷,有很多充满活力的绿色、红色和黄色。

龙有一双友善的大眼睛和一张微笑的脸,这使它看起来非常高兴。它的翅膀展开,脚上长着白色的爪子。驯鹿呈棕色,长着鹿角,似乎很享受骑在龙背上的样子。

现在的问题是,这条充气龙有多高?我需要估计它的高度。让我看看。我站在它旁边,身高大约 5 英尺 10 英寸。龙肯定比我高。也许大约8或9英尺高?但我应该尝试更精确。

我想知道它是如何决定自己的高度是5英尺10英寸的!

本地运行 QwQ

到目前为止,我的所有实验都使用了托管的 Hugging Face 演示。我希望尽快在我自己的笔记本电脑上尝试一下 – 我认为它应该适合 64GB 的 M2,也许量化较小。

现在的选项是:

  • Hugging Face 上的Qwen/QVQ-72B-Preview具有 GPU 模型权重,可与 Hugging Face Transformers 和qwen-vl-utils Python 包一起使用。
  • Prince Canuma已经在将模型转换为 Apple 的 MLX 框架– 希望它很快就能通过他优秀的mlx-vlm包提供。

作为 Ollama 的qwq 端口的快乐用户,我希望他们也能在某个时候添加 QwQ 版本。

标签: ai ,生成式人工智能, LLMS ,拥抱脸,视觉 LLMS , qwen ,推理缩放

原文: https://simonwillison.net/2024/Dec/24/qvq/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mostly metrics
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme