llm-llama-server 0.2 – 搞英语 → 看世界

这是使用 LLM 的新工具支持本地模型的第二个选项（第一个是通过llm-ollama ）。

事实证明， llama.cpp生态系统已经具有相当强大的 OpenAI 兼容工具支持，因此我的llm-llama-server插件只需要快速升级即可使其在那里工作。

不幸的是，目前看来流支持不适用于llama-server中的工具，因此我添加了一个名为llama-server-tools的新模型 ID，它可以禁用流并启用工具。

以下是尝试方法。首先，确保你已经安装了llama-server —— 在 macOS 上，最简单的获取方法是通过 Homebrew：

 brew install llama.cpp

像这样启动服务器。如果你还没有unsloth/gemma-3-4b-it-GGUF:Q4_K_XL文件，此命令将下载并缓存该文件（3.2GB）：

 llama-server --jinja -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_XL

然后在另一个窗口中：

 llm install llm-llama-server llm -m llama-server-tools -T llm_time 'what time is it?' --td

而且由于您甚至不需要 API 密钥，即使您以前从未使用过 LLM，您也可以使用这个 uvx 单行命令尝试一下：

 uvx --with llm-llama-server llm -m llama-server-tools -T llm_time 'what time is it?' --td

有关将llama.cpp与 LLM 结合使用的更多注释，请参阅几周前尝试 llama.cpp 的新视觉支持。