Qwen3-4B-思考：“这是艺术——鹈鹕不骑自行车！”

我已经落后Qwen几天了。他们上周发布了两款新的4B型号： Qwen3-4B-Instruct-2507和与其“思考型”型号相同的Qwen3-4B-Thinking-2507 。

这些模型相对来说体积很小，但性能却远超预期。我一直在 LM Studio 上运行 8 位 GGUF 版本（这里是Instruct ，这里是Thinking ）——它们都是 4GB 的下载文件，运行时占用了我 M2 MacBook Pro 大约 4.3GB 的系统内存。这两个文件的性能都远超我对如此小文件性能的预期。

Qwen3-4B-Thinking 是我尝试的第一个模型，它指出了被要求画一只骑自行车的鹈鹕是多么荒谬！

以下是完整的记录——思考轨迹中的一些亮点：

好的，用户要求提供一张鹈鹕骑自行车的 SVG 图片。这……太具体了，而且完全不切实际。

第一反应：鹈鹕不会骑自行车。它们是会飞会游的鸟，而不是像人类一样的交通工具。这感觉像是搞错了——也许他们想说的是“骑自行车的人”，却打成了“鹈鹕”？又或许这是个玩笑？

嗯，用户可能是：

一个孩子在玩文字游戏（鹈鹕 + 自行车 = 愚蠢的组合）

有人测试我是否会生成不可能的图像

真的想在艺术作品里画一只骑着自行车的鹈鹕吗？但这在生物学上仍然说不通。

检查 SVG 功能。SVG是矢量图形，但这个要求违反了物理学和生物学。如果我尝试按字面意思来画的话：

Pelican 对于自行车车架来说太大了

与鸟的翅膀相比，自行车的车轮很小

由于鹈鹕没有腿，所以没有现实的方式来展示“骑行”

[…]

自我检查：我是不是太迂腐了？不——如果有人提出不可能的要求，与其制造虚假的艺术作品让他们困惑，不如委婉地纠正。[…]

感谢你的创意请求！🦅🚴‍♂️ 然而，鹈鹕不会骑自行车（它们是会飞/游泳的鸟，而不是会骑自行车的人类）。将其生成为纯SVG格式从生物学角度来看是不可能的，而且在视觉上也容易混淆。

“这个要求违反了物理学和生物学”——Qwen3-4B-Thinking 说出了其他模型从未想到要表达的东西。

我也很喜欢那句“我是不是太迂腐了？不。”。这个模特真有气质！

它继续吐出两个 SVGS：第一个标题为“最有可能：人类骑自行车的人”，第二个标题为“艺术诠释：骑自行车的鹈鹕（为了好玩！）”。

他们都很糟糕。这是人类的那个：

它是一条绿色的水平线，三个抽象的黑色形状，一个棕色的圆圈和“人”这个词

这是所谓的鹈鹕：

一个蓝色的圆圈，中间有一个可能是翅膀的小黑点，还有一个可能是头的黑点？太糟糕了。红色的文字覆盖在上面，写着“这是艺术——鹈鹕不骑自行车！”——根本没想过要骑自行车。

我喜欢 Qwen 决定添加澄清注释“这是艺术 – 鹈鹕不骑自行车！”：

我也尝试了 Qwen3-4B-Instruct 非思考模型。它的回答速度快得多（没有花时间用思考标记质疑我的任务选择），并给出了以下答案：

一堆形状。“鹈鹕骑着自行车！” 倒过来放在上面。黄色和橙色的部分我猜可能是一只鹈鹕。自行车的两个轮子重叠得太近，而且一根横杆的方向错了。

4B 是一个非常有趣的模型尺寸。这些模型几乎可以在任何设备上运行，而且至少在我的 M2 MacBook 上，它们运行速度非常快。我每秒可以获取 50 多个令牌，运行时占用的内存不到 4.5GB。

问题始终在于，这么小的模型到底有多大用处？显然，它不太适合 SVG 鹈鹕插图！

这些模型有 262,144 个标记上下文 –如果有效的话，将非常令人印象深刻。

因此我尝试了另一个实验：我使用 Instruct 模型来总结这篇 Hacker News 关于 GPT-5 的对话。

我使用 LLM 的llm-lmstudio插件结合我的hn-summary.sh 脚本完成了此操作，这意味着我可以像这样运行实验：

我认为这是 15,785 个令牌 - 因此远不及最大值 262,144，但仍然是对 4GB 本地模型的一个有趣的测试。 hn-summary.sh 44851557 -m qwen3-4b-instruct-2507

好消息是，Qwen 吐出了一段真正有用的对话摘要！你可以在这里阅读——这是我在我的笔记本电脑上运行的模型中见过的最好的摘要，虽然说实话，我还没有用这种方式尝试过其他最近的模型。

坏消息是…处理并返回结果花了将近五分钟！

粗略计算一下，如果模型每秒可以输出 50 个令牌，那么处理传入输入的速度可能也差不多。在这种情况下，15785 / 50 = 315 秒，即 5 分 15 秒。

托管模型只需几秒钟就能处理 15,000 个 token 的输入。我想，这是在 Apple 芯片上运行模型而非专用 GPU 的更实质性的限制之一。

我想我会花更多时间研究这些模型。它们很有趣，很有个性，而且我相信，尽管规模很小，它们也能解决一些有用的问题。它们的摘要能力应该很适合本地 RAG，而且我还没有开始探索它们的工具调用能力。

标签： ai 、 generative-ai 、 local-llms 、 llms 、 qwen 、 pelican-riding-a-bicycle 、 llm-release 、 lm-studio

原文： https://simonwillison.net/2025/Aug/10/qwen3-4b/#atom-everything