这是 Qwen 模型发布的第三个周,此前一周发布了Qwen3-235B-A22B-Instruct-2507 (周一)和Qwen3-Coder-480B-A35B-Instruct (周二)。
这两个都是非推理模型 – 与 Qwen 3 系列中的先前模型不同,后者在同一个模型中结合了推理和非推理,由/think
和/no_think
标记控制。
今天的型号 Qwen3-235B-A22B-Thinking-2507(也作为FP8 变体发布)是他们的新思维变体。
Qwen 声称其“在开源思维模型中取得了最先进的成果”,并将上下文长度增加到 262,144 个标记,较 4 月份的Qwen3-235B-A22B有了很大的飞跃,后者“原生长度为 32,768 个标记,使用 YaRN 后长度为 131,072 个标记”。
他们自己发布的基准测试显示,在思考模式下,其得分与 DeepSeek-R1-0528、OpenAI 的 o3 和 o4-mini、Gemini 2.5 Pro 和 Claude Opus 4 相当。
新模型已经可以通过 OpenRouter 获得。
但它的鹈鹕有多好?
我尝试通过 OpenRouter 生成“鹈鹕骑自行车的 SVG”这个任务,它思考了 166 秒——将近三分钟!我从未见过一个模型思考这么久。难怪文档里有以下内容:
但是,由于模型可能需要更长的标记序列进行推理,我们强烈建议在可能的情况下使用大于 131,072 的上下文长度。
这是那段思考痕迹的副本。浏览起来真的很有趣:
鹈鹕画完了?不太好看!不过我喜欢它的喙:
标签: ai 、 generative-ai 、 llm 、 qwen 、 pelican-riding-a-bicycle 、 llm-reasoning 、 llm-release
原文: https://simonwillison.net/2025/Jul/25/qwen3-235b-a22b-thinking-2507/#atom-everything