你好这里。
真正通用的人工智能助手——连接思考与行动、研究与执行的助手——的愿景正在变成现实。我抢先体验了 Anthropic 的新模型Claude 4 Opus ,并在准备年假期间体验了它的各项功能。所以我的关键问题是:它能否 Opus 4 能帮助我在一天内完成比我单独或与其他 LLM 一起完成的更多的事情吗?
简而言之:微软首席技术官 Kevin Scott所描述的“开放代理网络”——一个 AI 代理可以通过开放、可靠、可互操作的协议代表您行事的世界——正在开始实现。今天,我将带您了解我交给 Opus 4 的五项任务,以及它是如何完成这些任务的。
超越聊天
Anthropic 将其新版本描述为“我们最强大的混合模型”,强调了其在编码、写作和推理方面的改进。然而,真正的亮点在于它通过工具扩展了思维——AI 可以代表你打开和使用电子邮件、Google Drive 和电子表格等日常应用。它可以阅读你的电子邮件、搜索答案并回复——所有这些都在一气呵成。更棒的是,你并不局限于 Anthropic 认可的工具;原则上,你可以将它连接到任何在线应用。我正是通过Zapier(一个无代码自动化中心)实现了这一点,让 Opus 4 接入了数千个应用,例如 Google Sheets、Slack 和 Notion。
新模型承诺在更长时间内持续、独立地工作。它专为 Anthropic 所称的“复杂的 AI 代理工作和深度研究”而构建,能够在数千个步骤中保持专注。这并不是什么新鲜事——o3 就能做到这一点,但 Opus 4 目前承诺的是,除了其卓越的编码能力外,还能与更多种类的工具集成。
为了测试它的能力,我把假期前的任务清单扔给了 Opus 4:
-
检查 Azeem 是否给我分配了任何任务。
-
从格式不佳的笔记中创建数据集。
-
集思广益,确定新闻稿主题。
-
审核内部工具是否存在安全漏洞。
-
为我的飞行构建一个平台游戏。
处理我的待办事项清单
Gmail 集成立即给我留下了深刻的印象。
我只是要求它“检查我的 Gmail 中 Azeem 上周的待办事项”。
Opus 4 成功扫描了一周的电子邮件,以惊人的准确度识别了 Azeem 传达的每一项任务。它理解上下文、优先级以及对话邮件中隐含的请求。例如,Opus 4 识别出了 Azeem 提出的一项重要测试请求,我需要评估一款新的内容转换工具。Opus 4 并没有将任务简单地概括为“测试新工具”。它还知道我需要应用特定模板、等待新内容、将结果与旧版本进行比较,并理解了目标:提升内容质量。它让我感觉,我可以让它扫描收件箱中的任何内容,它都能找到。
研究 > 电子表格 > 电子邮件
我的第二个任务是获取一个随机的数据点链接列表,我本来想把这些数据点转换成合适的数据集,但一直没时间。我觉得这是一个测试 Opus 4 工具使用情况的完美方法。我把一个凌乱的 URL 列表交给了模型,这些 URL 指向关于人工智能公司、能源使用和财务统计数据的文章,并要求它执行以下操作:
-
检查每个链接并确定其引用的数据类型。
-
通过额外的研究填补任何缺失的信息。
-
为每个数据集创建一个单独的电子表格。
-
将所有电子表格编译成最终摘要。
-
起草一封包含编译文件的电子邮件发送给我自己。
结果令人印象深刻,但也暴露了 Opus 4 的局限性。该模型将这种混乱的数据解析为六个结构化数据集,涵盖从人工智能收入跟踪到可再生能源的关键矿物需求。在此过程中,它检查了超过 750 个来源,每个数据集都包含相关指标、时间序列数据和来源。这些数据集并不完整,但绝对是一个有用的开端。
但真正的考验紧接着而来:“你能为每个数据集创建一个 Google Sheet 并通过电子邮件发送给我的同事吗?”
这就是无缝工具集成的承诺与现实的结合。Opus 4 创建了电子表格并起草了电子邮件——但只有第一张表格的内容完整。
目前尚不清楚缺陷究竟出在 Opus 4 本身,还是它与其他服务的连接上。它使用的是 Zapier——一个 Google Sheets 和 Gmail 等工具之间的通用适配器。Opus 4 调用了 17 个不同的工具来填充电子表格,这暗示了其中涉及的编排工作非常脆弱。或许是集成不够健壮,或许有更好的方法来构建任务,又或许这只是早期原型的雏形。
更糟糕的是,我不得不中途重新开始对话——搜索步骤占用了大量内存,导致对话无法连贯。像 Cursor 这样的工具已经提供了一些解决方法,比如汇总长话题并保持对话流畅,所以这个问题很可能是可以解决的。但这提醒了我:即使是最强大的助手,其流畅程度也如同结缔组织一样。
比较智力
为了测试不同的人工智能模型如何处理大规模的合成,我给每个模型提供了相同的混乱输入:一周的指数视图研究。该语料库涵盖了大约10万个单词——一堆杂乱无章的RSS文章、社交媒体片段、Slack内部评论和工作笔记。只有Opus 4能够完整地处理所有内容;Gemini和o3需要精简的数据集,并且受到上下文限制。
输出结果不仅仅是总结——它们还揭示了不同的思维风格。
o3 的沟通最为清晰。它提出了七个清晰明确、易于执行的主题——从“人工智能走向超大规模”到“前沿人工智能的订阅化”,再到“代理浏览器与代理网络的诞生”。每个条目都包含一个清晰的标题、强有力的解释性背景,以及一个为新闻稿框架量身定制的“为什么这很重要”的结尾。这是一份专为新闻稿撰写的综合报告,旨在采取行动并引起关注。
双子座采取了更结构化但更传统的路线。它根据主题和证据对内容进行分组,提供涵盖主要趋势的扎实、公正的摘要。但它走的是保守路线——没有强有力的编辑视角,也没有出人意料的框架。它的报道能力不错,但缺乏锋芒。
Opus 4 的分析最发人深省。它提供了系统层面的洞见,并引出了意想不到的线索——例如中国的“零边际”人工智能战略,以及人工智能能力与国家安全管控之间的紧张关系。Opus 4 的文章读起来更像是一篇短文:或许不够精炼,但在洞见密度和概念层面上却更为深刻。
这三种模型都揭示了相同的宏观趋势:规模化的能源成本、自主代理的兴起以及研究与部署之间的滞后。但它们的框架有所不同——o3 以高管为先,Gemini 专注于专题报道,而 Opus 4 则聚焦于系统层面的分析。如果说 o3 是幕僚长,那么 Opus 4 就是政策分析师,而 Gemini 则是一位称职的新闻撰稿人。
Anthropic 的驾驶室:编码
Anthropic 在软件工程方面一直拥有比较优势——这是他们的主营业务。因此,我自然而然地用 Opus 4 完成了一项编程任务。我并非专业开发人员,但这些新工具让我更容易上手。最近的一个项目是使用 Lovable(一个用于生成全栈应用的无代码平台)为团队构建内部 AI 工具。我知道代码可能存在一些缺陷,所以我将其输入到三个 AI 编程助手中:Claude Code (Anthropic 的编码界面由 Opus 4 提供支持)、Codex 和谷歌的 Project Jules。我要求他们分别识别并修复所有安全漏洞。
Opus 4 发现并修复了九个问题,其方法似乎是最系统的。Codex 发现了六个问题,包括一个 Opus 4 遗漏的问题——这凸显了模型多样性仍然可以带来回报。Jules 只发现了五个问题。三个模型都成功修复了它们发现的缺陷,但 Opus 4 仍然更胜一筹——更全面、更可靠。不过,这再次提醒我们:当风险很高时,值得向多个模型提出同一个问题,并比较结果。
我最后一个任务,也是那个强制性的趣味任务,是制作一个平台游戏。《Opus 4》的难度设定得相当高,我连第一关都没打完(毕竟我玩平台游戏的水平一般都很差)。
代理网络出现
这是我们之前提到的“开放代理网络”第一次真正触手可及,而非纸上谈兵。Opus 4 是目前唯一一款向外部集成开放的主流聊天客户端,它代表了这一愿景的早期基础设施。当它将电子邮件扫描、数据提取、电子表格创建和通信功能整合在一起时,我们看到了通用助手的雏形。
行业瞬息万变:谷歌正在将 Gemini 打造为“完整世界模型”,苹果正在向第三方开发者开放 AI 功能,而OpenAI 泄露的计划是将 ChatGPT 打造成“直观的 AI 超级助手”。这些公司的定位是彻底取代传统界面。“超级助手”正逐渐成为科技巨头竞相定义的一个新产品类别。
我的早期测试既揭示了突破,也揭示了转折点。当 Opus 4 的工具集成发挥作用时,它消除了思考与实践之间的摩擦。然而,容量超时、执行不完整以及集成不成熟暴露了构建真正自主系统所面临的架构挑战。但你仍然能感觉到这些模型正呈现平滑的指数增长。每个新版本似乎都更加强大:更加智能,并且能够更好地利用外部工具。稍加想象,你就能想象到它的样子:近乎完美的数据收集、可靠的电子邮件分类以及自主的错误修复。
这正是我们所见根本性转变的关键所在。通用助手将以人工智能代理生态系统的形式出现,这些代理通过新兴标准相互连接。如今,我们正处于集成与智能同等重要的阶段。Opus 4 的优势在于能够通过 Gmail、云端硬盘和其他工具进行访问和操作。现在的问题是,哪种模型将成为界面层——以及 Opus 4 是否是第一个真正能够覆盖所有工具和工作流程的有力竞争者。
原文: https://www.exponentialview.co/p/claude-4-the-first-universal-assistant