GPT-5 于昨天发布。在 AIME 2025 上达到 94.6%。在 SWE-bench 上达到 74.9%。
当我们接近这些基准的上限时,它们就会消亡。
GPT-5 及其下一代模型的革命性并非在于它们的知识,而在于知道如何行动。对于 GPT-5 而言,这发生在两个层面。首先,决定使用哪种模型。其次,也是更重要的,是通过工具调用。
我们正生活在一个法学硕士掌握知识检索和重组的时代。消费者搜索和编码,最初的杀手级应用,从根本上来说,是知识检索的挑战。两者都以新的方式组织现有信息。
我们已经翻越了这些山峰,因此竞争比以往任何时候都更加激烈。Anthropic、OpenAI 和谷歌的模型正在向类似的功能靠拢。中国模型和开源替代方案正在继续向最先进技术迈进。每个人都可以检索信息。每个人都可以生成文本。
新的竞争轴心?工具调用。
工具调用将 LLM 从顾问转变为参与者。它弥补了纯语言模型无法克服的两个关键模型弱点。
首先,工作流编排。模型擅长单次响应,但难以处理多步骤、有状态的流程。工具使它们能够管理冗长的工作流程,跟踪进度,处理错误,并在数十个操作之间维护上下文。
第二,系统集成。法学硕士(LLM)生活在纯文本的世界。工具可以让它们与数据库、API 和企业软件等外部系统进行可预测的交互,将自然语言转化为可执行的操作。
上个月我构建了 58 种不同的 AI 工具。
电子邮件处理器、CRM 集成器、Notion 更新器、研究助理。每种工具都将模型的功能扩展到新的领域。
人工智能最重要的能力是快速正确地选择正确的工具。每一个错误的步骤都会毁掉整个工作流程。
当我说“阅读来自 Y Combinator 的这封电子邮件并找到所有不在 CRM 中的初创公司”时,现代 LLM 会执行一个复杂的序列。
一个英文命令就能取代一整个工作流程。而这只是一个简单的命令。
更棒的是,如果使用正确的工具进行正确设置,该模型可以自行验证任务是否按时完成。这种自我验证循环为工作流程带来了可靠性,而这在其他情况下很难实现。
将其扩展到数百名员工、数千个工作流程,生产力将呈指数级增长。
未来人工智能世界的赢家将是那些最擅长协调工具并路由正确查询的人。每一次都是如此。一旦这些工作流程变得可预测,那时我们都将成为代理管理器。