事实证明,当我在 Qwen3-235B-A22B-Instruct-2507 上输入笔记时, Qwen 团队正在发布一些更大的东西:
今天,我们隆重推出 Qwen3-Coder,这是我们迄今为止最具代理性的代码模型。Qwen3-Coder 提供多种规模,但我们首先要介绍的是其最强大的版本:Qwen3-Coder-480B-A35B-Instruct——一个拥有 480B 参数的混合专家模型,拥有 35B 个有效参数,原生支持 256K 个 token 的上下文长度,并通过外推方法支持 1M 个 token 的上下文长度,在编码和代理任务中均表现出色。
这是另一个 Apache 2.0 许可的开放权重模型,在 Hugging Face 上可作为Qwen3-Coder-480B-A35B-Instruct和Qwen3-Coder-480B-A35B-Instruct-FP8使用。
我在 Hyperbolic 游乐场上使用 qwen3-coder-480b-a35b-instruct运行我的“生成一只骑自行车的鹈鹕的 SVG”测试提示:
实际上我更喜欢从 qwen3-235b-a22b-07-25 获得的那个。
除了新模型之外,Qwen 还发布了自己的代理终端编码助手qwen-code ,他们在博客文章中将其描述为“从 Gemini Code 分叉而来”(他们的意思是gemini-cli )——这是 Apache 2.0,因此分叉符合许可证。
他们非常注重此版本的代码性能,包括在阿里云上使用 20,000 个并行环境测试生成合成数据:
在 Qwen3-Coder 的后训练阶段,我们引入了长视界强化学习(Agent RL),以鼓励模型通过使用工具进行多轮交互来解决实际任务。Agent RL 的关键挑战在于环境扩展。为了解决这个问题,我们利用阿里云的基础设施构建了一个可扩展的系统,能够并行运行 20,000 个独立环境。该基础设施为大规模强化学习提供了必要的反馈,并支持大规模评估。因此,Qwen3-Coder 在 SWE-Bench Verified 上实现了开源模型中的最佳性能,且无需进行测试时间扩展。
为了进一步完善他们的编码资质,公告中还包含使用 Claude Code 和 Cline 运行新模型的说明,使用指向 Qwen 自己的兼容性代理的自定义 API 基本 URL。
Qwen 自身托管模型(通过阿里云)的定价看起来很有竞争力。这是我见过的第一个针对四种不同大小的输入设定不同价格的模型:
这种定价反映了对较长输入进行推理的处理成本更高。Gemini 2.5 Pro 针对 200,00 个代币以上和以下提供两种不同的定价。
Awni Hannun报告称,他在一台 512GB M3 Ultra Mac Studio 上以每秒 24 个令牌的速度运行了一个4 位量化 MLX 版本,使用了 272GB 的 RAM,在“ write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square
”方面获得了很好的结果。
标签:人工智能、生成人工智能、法学硕士、人工智能辅助编程、 qwen 、法学硕士定价、法学硕士发布、编码代理
原文: https://simonwillison.net/2025/Jul/22/qwen3-coder/#atom-everything