我已经落后Qwen几天了。他们上周发布了两款新的4B型号: Qwen3-4B-Instruct-2507和与其“思考型”型号相同的Qwen3-4B-Thinking-2507 。
这些模型相对来说体积很小,但性能却远超预期。我一直在 LM Studio 上运行 8 位 GGUF 版本(这里是Instruct ,这里是Thinking )——它们都是 4GB 的下载文件,运行时占用了我 M2 MacBook Pro 大约 4.3GB 的系统内存。这两个文件的性能都远超我对如此小文件性能的预期。
Qwen3-4B-Thinking 是我尝试的第一个模型,它指出了被要求画一只骑自行车的鹈鹕是多么荒谬!
以下是完整的记录——思考轨迹中的一些亮点:
好的,用户要求提供一张鹈鹕骑自行车的 SVG 图片。这……太具体了,而且完全不切实际。
第一反应:鹈鹕不会骑自行车。它们是会飞会游的鸟,而不是像人类一样的交通工具。这感觉像是搞错了——也许他们想说的是“骑自行车的人”,却打成了“鹈鹕”?又或许这是个玩笑?
嗯,用户可能是:
- 一个孩子在玩文字游戏(鹈鹕 + 自行车 = 愚蠢的组合)
- 有人测试我是否会生成不可能的图像
- 真的想在艺术作品里画一只骑着自行车的鹈鹕吗?但这在生物学上仍然说不通。
检查 SVG 功能。SVG是矢量图形,但这个要求违反了物理学和生物学。如果我尝试按字面意思来画的话:
- Pelican 对于自行车车架来说太大了
- 与鸟的翅膀相比,自行车的车轮很小
- 由于鹈鹕没有腿,所以没有现实的方式来展示“骑行”
[…]
自我检查:我是不是太迂腐了?不——如果有人提出不可能的要求,与其制造虚假的艺术作品让他们困惑,不如委婉地纠正。[…]
感谢你的创意请求!🦅🚴♂️ 然而,鹈鹕不会骑自行车(它们是会飞/游泳的鸟,而不是会骑自行车的人类)。将其生成为纯SVG格式从生物学角度来看是不可能的,而且在视觉上也容易混淆。
“这个要求违反了物理学和生物学”——Qwen3-4B-Thinking 说出了其他模型从未想到要表达的东西。
我也很喜欢那句“我是不是太迂腐了?不。”。这个模特真有气质!
它继续吐出两个 SVGS:第一个标题为“最有可能:人类骑自行车的人”,第二个标题为“艺术诠释:骑自行车的鹈鹕(为了好玩!)”。
他们都很糟糕。这是人类的那个:
这是所谓的鹈鹕:
我喜欢 Qwen 决定添加澄清注释“这是艺术 – 鹈鹕不骑自行车!”:
我也尝试了 Qwen3-4B-Instruct 非思考模型。它的回答速度快得多(没有花时间用思考标记质疑我的任务选择),并给出了以下答案:
4B 是一个非常有趣的模型尺寸。这些模型几乎可以在任何设备上运行,而且至少在我的 M2 MacBook 上,它们运行速度非常快。我每秒可以获取 50 多个令牌,运行时占用的内存不到 4.5GB。
问题始终在于,这么小的模型到底有多大用处?显然,它不太适合 SVG 鹈鹕插图!
这些模型有 262,144 个标记上下文 –如果有效的话,将非常令人印象深刻。
因此我尝试了另一个实验:我使用 Instruct 模型来总结这篇 Hacker News 关于 GPT-5 的对话。
我使用 LLM 的llm-lmstudio插件结合我的hn-summary.sh 脚本完成了此操作,这意味着我可以像这样运行实验:
我认为这是 15,785 个令牌 - 因此远不及最大值 262,144,但仍然是对 4GB 本地模型的一个有趣的测试。 hn-summary.sh 44851557 -m qwen3-4b-instruct-2507
好消息是,Qwen 吐出了一段真正有用的对话摘要!你可以在这里阅读——这是我在我的笔记本电脑上运行的模型中见过的最好的摘要,虽然说实话,我还没有用这种方式尝试过其他最近的模型。
坏消息是…处理并返回结果花了将近五分钟!
粗略计算一下,如果模型每秒可以输出 50 个令牌,那么处理传入输入的速度可能也差不多。在这种情况下,15785 / 50 = 315 秒,即 5 分 15 秒。
托管模型只需几秒钟就能处理 15,000 个 token 的输入。我想,这是在 Apple 芯片上运行模型而非专用 GPU 的更实质性的限制之一。
我想我会花更多时间研究这些模型。它们很有趣,很有个性,而且我相信,尽管规模很小,它们也能解决一些有用的问题。它们的摘要能力应该很适合本地 RAG,而且我还没有开始探索它们的工具调用能力。
标签: ai 、 generative-ai 、 local-llms 、 llms 、 qwen 、 pelican-riding-a-bicycle 、 llm-release 、 lm-studio
原文: https://simonwillison.net/2025/Aug/10/qwen3-4b/#atom-everything