AI 代理来了。它们能做什么？以及它们可能犯的错误

代理比早期的人工智能工具更进了一步。了解它们的工作原理正变得至关重要。

我们正在进入生成式人工智能的第三阶段。首先是聊天机器人，然后是助手。现在，我们开始看到智能体：那些渴望获得更大自主权、能够以“团队”形式工作或使用工具完成复杂任务的系统。

最新的热门产品是 OpenAI 的ChatGPT 代理。它将两个现有产品（Operator 和 Deep Research）合并成一个更强大的系统，据开发者称，该系统“可以思考和行动”。

这些新系统代表着比早期人工智能工具更进一步的进步。了解它们的工作原理、功能以及缺点和风险正变得至关重要。

从聊天机器人到客服人员

ChatGPT 于 2022 年 11 月开启了聊天机器人时代，但尽管它非常受欢迎，但对话界面限制了该技术的应用范围。

人工智能助手，或者说副驾驶，就是我们常说的“人工智能助手”。这些系统建立在与生成式人工智能聊天机器人相同的大型语言模型之上，只不过现在被设计用来在人类的指导和监督下执行任务。

代理是另一个进步。它们旨在以不同程度的自主性来追求目标（而不仅仅是完成任务），并由推理和记忆等更高级的能力支持。

多个人工智能代理系统可能能够协同工作，相互通信以规划、安排、决策和协调解决复杂问题。

代理商也是“工具用户”，因为他们也可以调用软件工具来完成专门的任务——比如网络浏览器、电子表格、支付系统等等。

快速发展的一年

自去年年底以来，Agentic AI 就已初露锋芒。去年十月，Anthropic 赋予其聊天机器人 Claude 类似人类与计算机交互的能力，这标志着 Agentic AI 迎来了又一个重要时刻。该系统可以搜索多个数据源，查找相关信息，并提交在线表格。

其他人工智能开发商也迅速跟进。OpenAI 发布了名为Operator的网页浏览代理，微软宣布推出Copilot 代理，我们还看到了谷歌Vertex AI和 Meta 的Llama 代理的推出。

今年早些时候，中国初创公司 Monica 展示了其 Manus 人工智能代理，它可以购买房地产并将讲座录音转换为摘要笔记。另一家中国初创公司 Genspark 发布了一款搜索引擎代理，可以返回单页概览（类似于谷歌现在的做法），并嵌入指向在线任务（例如查找最佳购物优惠）的链接。另一家初创公司Cluely推出了一款略显疯狂的“无所不能”的代理，虽然引起了关注，但尚未取得有意义的成果。

并非所有代理都适用于通用活动。有些代理专门用于特定领域。

编码和软件工程是这方面的先锋，其中微软的Copilot编码代理和 OpenAI 的Codex是领跑者。这些代理可以独立编写、评估和提交代码，同时还能评估人工编写的代码是否存在错误和性能滞后。

搜索、摘要等

生成式人工智能模型的核心优势之一是搜索和摘要功能。智能体可以利用这一点，完成一些人类专家可能需要数天才能完成的研究任务。

OpenAI 的深度研究利用多步骤在线研究来解决复杂任务。谷歌的人工智能“共同科学家”是一个更为复杂的多智能体系统，旨在帮助科学家产生新的想法和研究方案。

经纪人可以做得更多，但犯的错误也更多

尽管人工智能代理被大肆宣传，但它本身也存在诸多缺陷。例如， Anthropic和OpenAI都要求主动的人工监督，以最大限度地减少错误和风险。

OpenAI 还表示，其 ChatGPT 代理“风险较高”，因为可能协助制造生物和化学武器。然而，该公司尚未公布这一说法背后的数据，因此很难判断。

但Anthropic 的 Vend 项目揭示了智能体在现实世界中可能造成的各种风险。Vend 项目指派一名人工智能智能体负责运营一台员工自动售货机，就像经营一家小公司一样。然而，该项目最终却以滑稽又令人震惊的幻觉收场，冰箱里堆满了钨块，而不是食物。

我们都知道自动售货机是自动化的，但如果我们允许人工智能来运行整个业务：设定价格、订购库存、响应客户请求等等，情况会怎样？

通过与@andonlabs合作，我们做到了这一点。

阅读帖子： https://t.co/urymCiY269 pic.twitter.com/v2CqgHykzw

— Anthropic (@AnthropicAI) 2025 年 6 月 27 日

另一个值得警示的故事是，一名编码代理删除了一名开发人员的整个数据库，后来称这是“惊慌失措”。

办公室里的特工

尽管如此，代理已经找到了实际应用。

2024年，Telstra 大力部署了Microsoft Copilot 订阅。该公司表示，AI 生成的会议摘要和内容草稿平均每周可为员工节省 1-2 小时的时间。

许多大型企业正在推行类似的策略。一些规模较小的公司也在尝试使用代理，例如总部位于堪培拉的建筑公司 Geocon 就使用交互式人工智能代理来管理其公寓开发项目中的缺陷。

人力成本和其他成本

目前，人工客服的主要风险在于技术取代。随着人工客服的不断改进，它们可能会在许多行业和工种中取代人类员工。与此同时，人工客服的使用也可能加速入门级白领工作的衰落。

使用人工智能代理的人员也面临风险。他们可能过度依赖人工智能，从而分担了重要的认知任务。如果没有适当的监督和防护，幻觉、网络攻击和累积错误可能会很快使代理偏离其任务和目标，从而造成伤害、损失和损伤。

真实成本也尚不明确。所有生成式人工智能系统都会消耗大量能源，这反过来会影响使用代理的成本——尤其是在执行更复杂的任务时。

了解代理并构建自己的代理

尽管存在这些持续的担忧，但我们可以预期人工智能代理将变得更加强大，并在我们的工作场所和日常生活中更加普遍。开始使用（或许还可以构建）代理，并了解它们的优势、风险和局限性，不失为一个好主意。

对于普通用户来说，最常用的方法是使用Microsoft Copilot Studio来访问代理。它内置了安全保障、治理功能以及用于常见任务的代理存储。

对于更有野心的人来说，你可以使用Langchain框架仅用五行代码构建自己的 AI 代理。

本文转载自《对话》（The Conversation），并遵循知识共享许可协议。阅读原文。

文章《AI 代理已然到来。它们能做什么——以及它们可能犯的错误》最先发表于SingularityHub 。

原文： https://singularityhub.com/2025/07/29/ai-agents-are-here-heres-what-to-know-about-what-they-can-do-and-how-they-can-go-wrong/