局部最大化 – 搞英语 → 看世界

随着对人工智能推理的需求呈爆炸式增长，我对我的小型计算机的要求也会越来越高。

还有多少？

过去五周，我一直在使用本地模型，看看在不使用云端数万亿参数模型的情况下，我的日常工作能完成多少。答案是：一半。

类别	数数	占总数的百分比	例子
其他	521	35.3%	涵盖所有非结构化请求
日程安排	254	17.2%	查询空档时间，提出会议时间建议
市场调研	192	13.0%	竞争对手分析、筹款数据
总结	184	12.4%	文字稿审阅，视频摘要
电子邮件和入站信息	170	11.5%	草拟回复、后续跟进、转发
工程	147	9.9%	调试脚本、API修复、CLI任务
行政	10	0.7%	差旅费、开支、报销

如果将这 1400 个任务按类别划分，其中一半可以在本地 35B 模式下完成。电子邮件和入站、日程安排、摘要和管理共计 618 个任务（占 41.8%）。市场调研和工程任务大致分为简单任务（数据查找、脚本修复）和复杂任务（多源数据整合、架构决策）各占一半，占比 50%。

使用本地化模型有很多原因：隐私、成本、资产折旧^。

但实际上，真正重要的只有延迟。

今天早上我做了一个对比基准测试。八个智能体任务，相同的提示，两个模型都已预热。测试模型分别是运行在我 MacBook Pro M5 上的 Qwen 3.6 35B-A3B-4bit 和通过 API 运行的 Claude Opus 4.5。

本地模型并不更智能。Opus 4.5 在推理基准测试中的得分仅比本地模型高出约 20%。本地模型比前沿模型落后 3-4 个月，对于大规模复杂任务而言，这种差距至关重要。但对于常规智能体任务而言，这种差距通常无关紧要。

Opus 在结构和润色方面胜出：要点式语句、标题、更简洁的代码。Qwen 则在简洁性上更胜一筹，代码量通常只有 Opus 的一半。我对比阅读了两者的输出结果，发现它们都正确完成了任务。对于输出结果需要反馈到其他系统的代理任务而言，简洁性至关重要。

本地最大化（Localmaxxing），即将更多推理任务转移到本地模型，是应对词元最大化（tokenmaxxing）的必然选择。随着本地模型不断改进并缩小与前沿模型的差距，越来越多的用户会将工作负载转移到他们自己的硬件上。

如果一半的工作在我的笔记本电脑上运行速度能提高一倍，我每次都愿意这么做。我的小电脑终于要派上用场了。