人类学：我们如何构建多智能体研究系统

好的，我现在对多代理 LLM 系统很满意了。

直到最近，我一直对此持怀疑态度：既然通常可以使用针对前沿模型的单个、精心设计的提示来完成一些有用的事情，那么为什么要通过并行运行多个不同的提示来使您的生活变得更加复杂呢？

Anthropic 关于他们如何设计“Claude Research”工具的详细描述消除了我的疑虑。

逆向工程 Claude Code已经向我展示了一种机制，通过工具调用将某些编码研究任务传递给“子代理”。这篇新文章描述了一种更为复杂的方法。

他们首先对“代理”一词给出了明确的定义：

多智能体系统由多个智能体（LLM）协同工作组成，这些智能体自主地循环使用工具。我们的“研究”功能包含一个智能体，它会根据用户查询规划研究流程，然后使用工具创建并行智能体，同时搜索信息。

为什么一个研究系统要使用多个代理？

搜索的本质在于压缩：从海量语料库中提炼洞察。子代理通过与自身上下文窗口并行运行来促进压缩，同时探索问题的不同方面，最终为首席研究代理提炼出最重要的标记。[…]

我们的内部评估表明，多智能体研究系统尤其擅长处理涉及同时追踪多个独立方向的广度优先查询。我们发现，以克劳德·奥普斯4号为主导智能体，并由克劳德·桑奈特4号为子智能体的多智能体系统，在内部研究评估中的表现比单智能体克劳德·奥普斯4号高出90.2%。例如，当被要求识别信息技术类标普500指数成分股公司的所有董事会成员时，多智能体系统通过将其分解为子智能体的任务找到了正确答案，而单智能体系统则因缓慢的顺序搜索而无法找到答案。

任何研究过 Claude Code 的人都会注意到，这种架构的缺点是它会消耗更多的代币：

这些架构也存在一个缺点：在实践中，代币消耗速度很快。根据我们的数据，智能体系统使用的代币通常比聊天交互多 4 倍，而多智能体系统使用的代币则比聊天多 15 倍。为了实现经济可行性，多智能体系统需要任务本身的价值足够高，以支付更高的性能。[…]

我们发现多智能体系统在涉及大量并行化、超出单一上下文窗口的信息以及与众多复杂工具交互的有价值的任务方面表现出色。

其核心优势在于管理 20 万个 token 上下文的限制。每个子任务都有各自独立的上下文，从而允许在研究任务中处理更大量的内容。

提供“记忆”机制也很重要：

LeadResearcher 首先仔细考虑方法并将其计划保存到内存中以保留上下文，因为如果上下文窗口超过 200,000 个标记，它将被截断，并且保留计划非常重要。

本文的其余部分详细描述了构建真正有效的系统所需的快速工程过程：

早期的代理会犯一些错误，例如为了简单的查询而生成 50 个子代理、在网络上无休止地搜索不存在的信息源，以及通过过多的更新来分散彼此的注意力。由于每个代理都由提示控制，因此提示工程是我们改进这些行为的主要手段。[…]

在我们的系统中，首席代理将查询分解为子任务，并将它们描述给子代理。每个子代理都需要一个目标、一个输出格式、关于使用工具和资源的指导，以及明确的任务界限。

他们通过聘请专门的代理来帮助优化那些关键的工具描述，从而获得了良好的结果：

我们甚至创建了一个工具测试代理——当遇到有缺陷的MCP工具时，它会尝试使用该工具，然后重写工具描述以避免故障。通过数十次工具测试，该代理发现了关键的细微差别和错误。这一改进工具人体工程学的过程使未来使用新描述的代理的任务完成时间缩短了40%，因为他们能够避免大多数错误。

子代理可以并行运行，从而显著提高性能：

为了提高速度，我们引入了两种并行化方案：(1) 主代理并行启动 3-5 个子代理，而非串行启动；(2) 子代理并行使用 3 个或以上工具。这些改进可将复杂查询的调研时间缩短高达 90%，使研究团队能够在几分钟内（而非几小时内）完成更多工作，同时覆盖比其他系统更多的信息。

其中还有一个关于他们评估方法的详尽章节——他们发现 LLM-as-a-judge 对他们来说效果很好，但人工评估也至关重要：

在我们的案例中，人工测试人员注意到，我们早期的代理总是选择经过 SEO 优化的内容农场，而不是权威但排名较低的来源，例如学术 PDF 或个人博客。在提示中添加来源质量启发式方法有助于解决这个问题。

这篇文章里有很多实用且可行的建议。我还没见过其他关于多智能体系统设计的文章能如此实用。

他们甚至从他们的研究系统中添加了几个示例提示，并将其添加到开源提示手册中。以下是鼓励并行使用工具的部分：

<use_parallel_tool_calls> For maximum efficiency, whenever you need to perform multiple independent operations, invoke all relevant tools simultaneously rather than sequentially. Call tools in parallel to run subagents at the same time. You MUST use parallel tool calls for creating multiple subagents (typically running 3 subagents at the same time) at the start of the research, unless it is a straightforward query. For all other queries, do any necessary quick initial planning or investigation yourself, then run multiple subagents in parallel. Leave any extensive tool calls to the subagents; instead, focus on running subagents in parallel efficiently. </use_parallel_tool_calls>

以下是对子代理使用的OODA 研究循环的有趣描述：

Research loop: Execute an excellent OODA (observe, orient, decide, act) loop by (a) observing what information has been gathered so far, what still needs to be gathered to accomplish the task, and what tools are available currently; (b) orienting toward what tools and queries would be best to gather the needed information and updating beliefs based on what has been learned so far; (c) making an informed, well-reasoned decision to use a specific tool in a certain way; (d) acting to use this tool. Repeat this loop in an efficient way to research well and learn based on new results.

标签：人工智能辅助搜索、人择、克劳德、评估、人工智能代理、法学硕士工具使用、人工智能、法学硕士、提示工程、生成人工智能、论文评审

原文： https://simonwillison.net/2025/Jun/14/multi-agent-research-system/#atom-everything