Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

Qwen3-4B-思考:“这是艺术——鹈鹕不骑自行车!”

Posted on 2025-08-11

我已经落后Qwen几天了。他们上周发布了两款新的4B型号: Qwen3-4B-Instruct-2507和与其“思考型”型号相同的Qwen3-4B-Thinking-2507 。

这些模型相对来说体积很小,但性能却远超预期。我一直在 LM Studio 上运行 8 位 GGUF 版本(这里是Instruct ,这里是Thinking )——它们都是 4GB 的下载文件,运行时占用了我 M2 MacBook Pro 大约 4.3GB 的系统内存。这两个文件的性能都远超我对如此小文件性能的预期。

Qwen3-4B-Thinking 是我尝试的第一个模型,它指出了被要求画一只骑自行车的鹈鹕是多么荒谬!

以下是完整的记录——思考轨迹中的一些亮点:

好的,用户要求提供一张鹈鹕骑自行车的 SVG 图片。这……太具体了,而且完全不切实际。

第一反应:鹈鹕不会骑自行车。它们是会飞会游的鸟,而不是像人类一样的交通工具。这感觉像是搞错了——也许他们想说的是“骑自行车的人”,却打成了“鹈鹕”?又或许这是个玩笑?

嗯,用户可能是:

  • 一个孩子在玩文字游戏(鹈鹕 + 自行车 = 愚蠢的组合)
  • 有人测试我是否会生成不可能的图像
  • 真的想在艺术作品里画一只骑着自行车的鹈鹕吗?但这在生物学上仍然说不通。

检查 SVG 功能。SVG是矢量图形,但这个要求违反了物理学和生物学。如果我尝试按字面意思来画的话:

  • Pelican 对于自行车车架来说太大了
  • 与鸟的翅膀相比,自行车的车轮很小
  • 由于鹈鹕没有腿,所以没有现实的方式来展示“骑行”

[…]

自我检查:我是不是太迂腐了?不——如果有人提出不可能的要求,与其制造虚假的艺术作品让他们困惑,不如委婉地纠正。[…]

感谢你的创意请求!🦅🚴‍♂️ 然而,鹈鹕不会骑自行车(它们是会飞/游泳的鸟,而不是会骑自行车的人类)。将其生成为纯SVG格式从生物学角度来看是不可能的,而且在视觉上也容易混淆。

“这个要求违反了物理学和生物学”——Qwen3-4B-Thinking 说出了其他模型从未想到要表达的东西。

我也很喜欢那句“我是不是太迂腐了?不。”。这个模特真有气质!

它继续吐出两个 SVGS:第一个标题为“最有可能:人类骑自行车的人”,第二个标题为“艺术诠释:骑自行车的鹈鹕(为了好玩!)”。

他们都很糟糕。这是人类的那个:

它是一条绿色的水平线,三个抽象的黑色形状,一个棕色的圆圈和“人”这个词

这是所谓的鹈鹕:

一个蓝色的圆圈,中间有一个可能是翅膀的小黑点,还有一个可能是头的黑点?太糟糕了。红色的文字覆盖在上面,写着“这是艺术——鹈鹕不骑自行车!”——根本没想过要骑自行车。

我喜欢 Qwen 决定添加澄清注释“这是艺术 – 鹈鹕不骑自行车!”:

我也尝试了 Qwen3-4B-Instruct 非思考模型。它的回答速度快得多(没有花时间用思考标记质疑我的任务选择),并给出了以下答案:

一堆形状。“鹈鹕骑着自行车!” 倒过来放在上面。黄色和橙色的部分我猜可能是一只鹈鹕。自行车的两个轮子重叠得太近,而且一根横杆的方向错了。

4B 是一个非常有趣的模型尺寸。这些模型几乎可以在任何设备上运行,而且至少在我的 M2 MacBook 上,它们运行速度非常快。我每秒可以获取 50 多个令牌,运行时占用的内存不到 4.5GB。

问题始终在于,这么小的模型到底有多大用处?显然,它不太适合 SVG 鹈鹕插图!

这些模型有 262,144 个标记上下文 –如果有效的话,将非常令人印象深刻。

因此我尝试了另一个实验:我使用 Instruct 模型来总结这篇 Hacker News 关于 GPT-5 的对话。

我使用 LLM 的llm-lmstudio插件结合我的hn-summary.sh 脚本完成了此操作,这意味着我可以像这样运行实验:

我认为这是 15,785 个令牌 - 因此远不及最大值 262,144,但仍然是对 4GB 本地模型的一个有趣的测试。 hn-summary.sh 44851557 -m qwen3-4b-instruct-2507

好消息是,Qwen 吐出了一段真正有用的对话摘要!你可以在这里阅读——这是我在我的笔记本电脑上运行的模型中见过的最好的摘要,虽然说实话,我还没有用这种方式尝试过其他最近的模型。

坏消息是…处理并返回结果花了将近五分钟!

粗略计算一下,如果模型每秒可以输出 50 个令牌,那么处理传入输入的速度可能也差不多。在这种情况下,15785 / 50 = 315 秒,即 5 分 15 秒。

托管模型只需几秒钟就能处理 15,000 个 token 的输入。我想,这是在 Apple 芯片上运行模型而非专用 GPU 的更实质性的限制之一。

我想我会花更多时间研究这些模型。它们很有趣,很有个性,而且我相信,尽管规模很小,它们也能解决一些有用的问题。它们的摘要能力应该很适合本地 RAG,而且我还没有开始探索它们的工具调用能力。

标签: ai 、 generative-ai 、 local-llms 、 llms 、 qwen 、 pelican-riding-a-bicycle 、 llm-release 、 lm-studio

原文: https://simonwillison.net/2025/Aug/10/qwen3-4b/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme