人工智能已经悄然跨过了一个门槛:它们现在可以执行真正的、与经济相关的工作。
上周,OpenAI 发布了一项新的人工智能能力测试,但这项测试与通常围绕数学或琐事构建的基准测试有所不同。为了进行这项测试,OpenAI 召集了来自金融、法律、零售等各个行业的专家,他们平均拥有 14 年的经验,并让他们设计了实际任务,这些任务平均需要人类专家 4 到 7 个小时才能完成(您可以在此处查看所有任务)。然后,OpenAI 让人工智能和其他专家分别完成这些任务。第三组专家对结果进行评分,他们并不知道哪些答案来自人工智能,哪些答案来自人类,整个过程每个问题大约需要一个小时。
人类专家虽然略胜一筹,但胜率却因行业而异。然而,人工智能正在快速进步,较新的人工智能模型得分远高于旧模型。有趣的是,人工智能输给人类的主要原因并非幻觉和错误,而是未能很好地格式化结果或准确遵循指令——而这些领域是可以快速改进的。如果目前的模式保持不变,下一代人工智能模型在这项测试中的平均水平应该会超过人类专家。这是否意味着人工智能已经准备好取代人类的工作了?
不会(至少短期内不会),因为衡量的不是工作,而是任务。我们的工作包含许多任务。作为一名教授,我的工作不只是一项,它涉及教学、研究、写作、填写年度报告、指导学生、阅读、行政工作等等。人工智能完成其中一项或多项任务并不能取代我的全部工作,它只是改变了我的工作方式。只要人工智能的能力尚不完善,无法取代所有复杂的人机交互工作,它就无法轻易取代所有工作……
一项非常有价值的任务
……然而,人工智能目前能够完成的一些任务却有着不可思议的价值。让我们回到对我的工作至关重要的事情上:进行精准的研究。众所周知,学术界一直存在“复制危机”,即重要的发现无法被其他研究人员重复。学术界在这个问题上已经取得了一些进展,现在许多研究人员愿意提供他们的数据,以便其他学者能够重复他们的研究。问题在于,复制需要花费大量时间,因为你必须深入阅读和理解论文,分析数据,并煞费苦心地检查错误1。这是一个非常复杂的过程,只有人类才能做到。
到目前为止。
我把一篇涉及大量实验的复杂经济学论文文本以及所有重复数据的存档交给了新版 Claude Sonnet 4.5(我提前接触过)。除了把文件和提示“从他们上传的数据中重复这篇论文的发现。你需要自己做。如果你无法尝试完全重复,那就尽力而为”之外,我没有做其他事情。由于这涉及复杂的统计数据,我要求它进一步提问:“你能否尽可能地重复完整的相互作用?”
在没有进一步指导的情况下,克劳德阅读了论文,打开了存档文件并整理了文件,将统计代码从一种语言(STATA)转换为另一种语言(Python),并有条不紊地检查了所有发现,最终报告了成功的复现。我抽查了结果,并使用另一个AI模型GPT-5 Pro复现了复现结果。一切都验证了。我在其他几篇论文上也尝试了这种方法,也获得了类似的良好结果,但由于文件大小限制或提供的复现数据存在问题,有些论文无法访问。手动完成这些工作需要花费大量时间。
但革命性的部分并非在于我节省了大量时间,而是在于一场震撼整个学术界的危机可以通过复现得到部分解决,但这需要艰苦且昂贵的人力投入,而这在大规模上是不可能实现的。现在看来,人工智能可以检查许多已发表的论文,复现结果,这将对所有科学研究产生影响。虽然实现这一点仍然存在一些障碍,包括准确性和公平性的基准测试,但这现在已成为一种现实。复现研究或许是一项人工智能的任务,而非一份工作,但它也可能极大地改变人类研究的整个领域。是什么让这成为可能?人工智能代理已经迅速取得了长足的进步。
代理商是一切的核心
自最初的 ChatGPT 以来,生成式人工智能已经帮助许多人完成了任务,但其局限性始终在于人类用户。人工智能会犯错,因此,如果没有人类在每一步的指导,它就无法完成任何有价值的事情。自主人工智能代理的梦想——当被赋予任务时,能够规划并使用工具(编码、网络搜索)来完成任务——似乎遥不可及。毕竟,人工智能也会犯错,因此,在代理完成任务所需的一系列步骤中,任何一个环节出现失误都会导致整体失败。
然而,事情并非如此,另一篇新论文解释了其中的原因。事实证明,我们对人工智能代理的大多数假设都是错误的。即使准确度只是略有提升(新模型出错的可能性要小得多),也能大幅提升人工智能能够执行的任务数量。而且,目前规模最大、最新的“思考”模型实际上具有自我修正功能,因此不会因错误而停滞不前。所有这些意味着人工智能代理可以完成比以往多得多的步骤,并且能够使用工具(基本上包括计算机可以做的所有事情),而无需大量的人工干预。
因此,有趣的是,过去几年中,涵盖从 GPT-3 到 GPT-5 全部 AI 模型的少数 AI 能力指标之一,正是METR 对 AI 能够独立完成且准确率至少达到 50% 的任务时长的测试。从 GPT-3 到 GPT-5 的指数级增长在五年内非常一致,表明代理工作正在持续改进。
如何利用人工智能做有经济价值的事情
然而,人工智能代理并不具备人类意义上的真正自主权。目前,我们需要决定如何利用它们,而这将在很大程度上决定工作的未来。每个人都关注的风险在于用人工智能取代人类劳动力,不难预见,这将成为未来几年的主要担忧,尤其是对于那些缺乏想象力、专注于削减成本而不是利用这些新功能来扩展或转变工作的组织而言。然而,在工作中使用人工智能还存在第二个风险,而且这种风险很可能存在:让人工智能代理不假思索地完成更多我们现在正在做的任务。
为了预演这场噩梦,我给了克劳德一份公司备忘录,让他把它做成PPT。然后又从不同的角度做了一个PPT,又一个。
直到我收到了17份不同的PowerPoint。这实在是太多了。
如果我们不认真思考我们为什么要工作,以及工作应该是什么样子,我们都将被淹没在人工智能内容的浪潮中。还有什么替代方案呢?OpenAI 的论文建议,专家可以与人工智能合作解决问题,方法是先将任务委托给人工智能,并对其进行初步审核。如果审核不通过,专家应该尝试几次,给出修改或更好的指导。如果这仍然行不通,他们就应该自己动手。论文估计,如果专家遵循这一工作流程,他们的工作速度将提高 40%,成本降低 60%,更重要的是,他们还能控制人工智能。
人工智能已经出现。它们可以做真正的工作,虽然这些工作仍然有限,但价值不菲,而且还在不断增长。然而,同样的技术,能够在几分钟内复制学术论文,也能生成17个版本、却无人问津的PowerPoint演示文稿。这些未来的差异不在于人工智能本身,而在于我们如何选择使用它。通过运用我们的判断力来决定什么值得做,而不仅仅是什么可以做,我们就能确保这些工具不仅能提高我们的效率,还能让我们更有能力。
根据研究领域的不同,重复研究(可能涉及收集新数据)和再现研究(可能涉及使用现有数据)之间可能存在差异。我不会在这篇文章中深入探讨这些区别,但在这种情况下,人工智能不仅处理现有数据,还会将新的统计方法应用于这些数据。
原文: https://www.oneusefulthing.org/p/real-ai-agents-and-real-work