这是使用 LLM 的新工具支持本地模型的第二个选项(第一个是通过llm-ollama )。
事实证明, llama.cpp
生态系统已经具有相当强大的 OpenAI 兼容工具支持,因此我的llm-llama-server
插件只需要快速升级即可使其在那里工作。
不幸的是,目前看来流支持不适用于llama-server
中的工具,因此我添加了一个名为llama-server-tools
的新模型 ID,它可以禁用流并启用工具。
以下是尝试方法。首先,确保你已经安装了llama-server
—— 在 macOS 上,最简单的获取方法是通过 Homebrew:
brew install llama.cpp
像这样启动服务器。如果你还没有unsloth/gemma-3-4b-it-GGUF:Q4_K_XL文件,此命令将下载并缓存该文件(3.2GB):
llama-server --jinja -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_XL
然后在另一个窗口中:
llm install llm-llama-server llm -m llama-server-tools -T llm_time 'what time is it?' --td
而且由于您甚至不需要 API 密钥,即使您以前从未使用过 LLM,您也可以使用这个 uvx 单行命令尝试一下:
uvx --with llm-llama-server llm -m llama-server-tools -T llm_time 'what time is it?' --td
有关将llama.cpp
与 LLM 结合使用的更多注释,请参阅几周前尝试 llama.cpp 的新视觉支持。
标签: generative-ai 、 llm 、插件、项目、 llm-tool-use 、 llama-cpp 、 ai 、 uv
原文: https://simonwillison.net/2025/May/28/llama-server-tools/#atom-everything