Qwen3-Coder：世界上的代理编码 – 搞英语 → 看世界

事实证明，当我在 Qwen3-235B-A22B-Instruct-2507 上输入笔记时， Qwen 团队正在发布一些更大的东西：

今天，我们隆重推出 Qwen3-Coder，这是我们迄今为止最具代理性的代码模型。Qwen3-Coder 提供多种规模，但我们首先要介绍的是其最强大的版本：Qwen3-Coder-480B-A35B-Instruct——一个拥有 480B 参数的混合专家模型，拥有 35B 个有效参数，原生支持 256K 个 token 的上下文长度，并通过外推方法支持 1M 个 token 的上下文长度，在编码和代理任务中均表现出色。

这是另一个 Apache 2.0 许可的开放权重模型，在 Hugging Face 上可作为Qwen3-Coder-480B-A35B-Instruct和Qwen3-Coder-480B-A35B-Instruct-FP8使用。

我在 Hyperbolic 游乐场上使用 qwen3-coder-480b-a35b-instruct运行我的“生成一只骑自行车的鹈鹕的 SVG”测试提示：

这辆自行车没有辐条。鹈鹕呈浅黄色，搭在自行车的中间，而不是栖息在自行车上——它有一个黄色的大喙和一个奇怪的红色下喙或肉垂。

实际上我更喜欢从 qwen3-235b-a22b-07-25 获得的那个。

除了新模型之外，Qwen 还发布了自己的代理终端编码助手qwen-code ，他们在博客文章中将其描述为“从 Gemini Code 分叉而来”（他们的意思是gemini-cli ）——这是 Apache 2.0，因此分叉符合许可证。

他们非常注重此版本的代码性能，包括在阿里云上使用 20,000 个并行环境测试生成合成数据：

在 Qwen3-Coder 的后训练阶段，我们引入了长视界强化学习（Agent RL），以鼓励模型通过使用工具进行多轮交互来解决实际任务。Agent RL 的关键挑战在于环境扩展。为了解决这个问题，我们利用阿里云的基础设施构建了一个可扩展的系统，能够并行运行 20,000 个独立环境。该基础设施为大规模强化学习提供了必要的反馈，并支持大规模评估。因此，Qwen3-Coder 在 SWE-Bench Verified 上实现了开源模型中的最佳性能，且无需进行测试时间扩展。

为了进一步完善他们的编码资质，公告中还包含使用 Claude Code 和 Cline 运行新模型的说明，使用指向 Qwen 自己的兼容性代理的自定义 API 基本 URL。

Qwen 自身托管模型（通过阿里云）的定价看起来很有竞争力。这是我见过的第一个针对四种不同大小的输入设定不同价格的模型：

定价表包含三列，分别显示输入代币数量（0-32K、32K-128K、128K-256K、256K-1M）、输入价格（百万代币）（1 美元、1.8 美元、3 美元、6 美元）和输出价格（百万代币）（5 美元、9 美元、15 美元、60 美元）

这种定价反映了对较长输入进行推理的处理成本更高。Gemini 2.5 Pro 针对 200,00 个代币以上和以下提供两种不同的定价。

Awni Hannun报告称，他在一台 512GB M3 Ultra Mac Studio 上以每秒 24 个令牌的速度运行了一个4 位量化 MLX 版本，使用了 272GB 的 RAM，在“ write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square ”方面获得了很好的结果。

通过@Alibaba_Qwen

标签：人工智能、生成人工智能、法学硕士、人工智能辅助编程、 qwen 、法学硕士定价、法学硕士发布、编码代理

原文： https://simonwillison.net/2025/Jul/22/qwen3-coder/#atom-everything