Mistral 发布了新的 Apache 2.0 许可的 LLM 版本,这次专门针对代码进行了训练。
Devstral 在 SWE-Bench Verified 上获得了 46.8% 的得分,比之前的开源 SoTA 模型高出 6% 以上。在相同的测试框架(OpenHands,由All Hands AI 🙌 提供)下进行评估时,Devstral 的表现远超 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等规模更大的模型。
我总是对这种声称比更大的竞争对手有出色基准测试的小型模型持怀疑态度,但在 Ollama 上有一款只有 14GB的 Devstral 模型,您可以很容易地亲自尝试一下。
我是这样获取的:
ollama pull devstral
然后在与llm-ollama的llm 聊天会话中运行它,如下所示:
llm install llm-ollama llm chat -m devstral
初步印象:我觉得这个相当不错!这里有一份完整的记录,我让它编写 Python 代码,从 URL 获取 CSV 文件并将其导入 SQLite 数据库,并创建包含必要列的表。说实话,我得放弃这个挑战了,因为模型已经很久没在这个挑战上失败了,但看看它如何处理后续的请求,比如asyncio
或其他 HTTP 客户端库,仍然很有趣。
标签: LLMS 、 AI 、 Ollama 、 LLMS 、 LLM-RELEASE 、 MISTRAL 、 AI辅助编程、 GENERATIVE-AI
原文: https://simonwillison.net/2025/May/21/devstral/#atom-everything