Qwen3-8B – 搞英语 → 看世界

在尝试了一些Qwen 3 型号后，我最喜欢的型号让我有点惊讶：我真的很喜欢Qwen3-8B 。

我一直在通过 MLX 4bit 量化版本mlx-community/Qwen3-8B-4bit运行提示。我正在使用llm-mlx，如下所示：

 llm install llm-mlx llm download-models mlx-community/Qwen3-8B-4bit

这会提取 4.3GB 数据并将其保存到~/.cache/huggingface/hub/models--mlx-community--Qwen3-8B-4bit 。

我给它分配了一个默认别名：

 llm aliases set q3 mlx-community/Qwen3-8B-4bit

现在我可以运行提示：

 llm -m q3 'brainstorm questions I can ask my friend who I think is secretly from Atlantis that will not tip her off to my suspicions'

Qwen3 是一个“推理”模型，因此它以包含其思维链的<think>块开始每个提示。阅读这些总是很有趣。这是我对上述问题得到的完整答复。

我发现 Qwen3-8B 也具有惊人的有用能力。它可以总结短文。它可以根据问题和模式编写简单的 SQL 查询。它可以通过读取 HTML 和 JavaScript来了解简单的 Web 应用程序的功能。它可以编写Python代码来满足一段长的规范——对于这个规范，它“推理”了不合理的很长时间，但它最终确实得到了一个有用的答案。

所有这些都会消耗 4 到 5GB 的内存，具体取决于提示的长度。

我认为几 GB 的浮点数可以有效地完成这些不同的任务，特别是使用如此少的内存，以至于它不会强加我想同时在笔记本电脑上运行的其余内容，这是非常了不起的。