在尝试了一些Qwen 3 型号后,我最喜欢的型号让我有点惊讶:我真的很喜欢Qwen3-8B 。
我一直在通过 MLX 4bit 量化版本mlx-community/Qwen3-8B-4bit运行提示。我正在使用llm-mlx,如下所示:
llm install llm-mlx llm download-models mlx-community/Qwen3-8B-4bit
这会提取 4.3GB 数据并将其保存到~/.cache/huggingface/hub/models--mlx-community--Qwen3-8B-4bit
。
我给它分配了一个默认别名:
llm aliases set q3 mlx-community/Qwen3-8B-4bit
现在我可以运行提示:
llm -m q3 'brainstorm questions I can ask my friend who I think is secretly from Atlantis that will not tip her off to my suspicions'
Qwen3 是一个“推理”模型,因此它以包含其思维链的<think>
块开始每个提示。阅读这些总是很有趣。这是我对上述问题得到的完整答复。
我发现 Qwen3-8B 也具有惊人的有用能力。它可以总结短文。它可以根据问题和模式编写简单的 SQL 查询。它可以通过读取 HTML 和 JavaScript来了解简单的 Web 应用程序的功能。它可以编写Python代码来满足一段长的规范——对于这个规范,它“推理”了不合理的很长时间,但它最终确实得到了一个有用的答案。
所有这些都会消耗 4 到 5GB 的内存,具体取决于提示的长度。
我认为几 GB 的浮点数可以有效地完成这些不同的任务,特别是使用如此少的内存,以至于它不会强加我想同时在笔记本电脑上运行的其余内容,这是非常了不起的。
标签: llm 、模型、 qwen 、 mlx 、生成人工智能、 ai 、本地 llms 、 llm 推理
原文: https://simonwillison.net/2025/May/2/qwen3-8b/#atom-everything