我今天安排了一场两台机器人之间的比赛。
左边是我的Mac,右边是Claude Code的电脑。它们的任务都是在Stripe的新区块链Tempo上构建一个支付应用。相同的提示,相同的任务,并排显示。
Opus 4.5 在基准测试中比 Qwen 35B 智能约 20% ,而且体积可能大了 50 倍。兔子本该赢,但它却输了。
本地模型运行耗时2分钟。克劳德接手运行,耗时6分钟。我请克劳德对两个输出结果分别评分:本地模型6.5分,克劳德4.5分。
视频以2倍速播放。
反应速度提高了三倍,我可以增加一个循环:“评估计划并解决评估结果。”兔子还在思考的时候,乌龟已经跑完一圈了。
| 迅速的 | 本地(Qwen 35B) | 克劳德(作品 4.5) |
|---|---|---|
| 研究节奏并制定计划 | 20.9秒 | 55秒 |
| 对该计划进行评价 | 16.5秒 | 1分35秒 |
| 哪种语言最好? | 16.5秒 | 1分35秒 |
| 在线研究反馈 | 48.9秒 | 2分35秒 |
| 保存实施计划 | 15.4秒 | 44秒 |
| 全部的 | 约2分钟 | 约6分24秒 |
更快的响应速度意味着在会议结束或注意力分散之前可以进行更多轮的修改。对于智能编码工作流程和复杂的代码库来说,情况有所不同,较慢的工作速度可能带来更好的结果。但对于日常任务,更快的模型可以实现更紧密的反馈循环。更紧密的循环可以产生更好的结果。
我们并非总是需要最智能的人工智能来完成工作。