Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

关于与巫师合作

Posted on 2025-09-12

在我的著作《协同智能》(Co-Intelligence)中,我概述了人类与人工智能合作的方式,这毫不奇怪地被称为协同智能。与聊天机器人合作,人类可以把人工智能当作实习生或同事,纠正它的错误,检查它的工作,共同开发创意,并引导它朝着正确的方向发展。在过去的几周里,我开始相信协同智能仍然很重要,但人工智能的本质开始指向不同的方向。我们正在从合作伙伴转变为观众,从协作转变为创造。

解释这种变化的一个好方法是让人工智能解释一下我写这本书以来发生了什么。我把我的书和大约140篇“一件有用的事”的帖子(顺便说一句,我不敢相信我写了这么多帖子!)都输入到了NotebookLM中,并选择了新的视频概览选项,并附上了一个基本提示,制作了一个关于人工智能世界发生的事情的视频。

几分钟后,我收到了这个。它相当不错。好到我觉得值得一看,了解一下我写这本书以来发生的事情。

但是AI是如何选择这些点的呢?我不知道,但它们相当不错。它是如何决定使用哪些幻灯片的?我不知道,但它们也相当准确(不过图像仍然是个弱点,因为它没有显示承诺的水獭)。它对吗?这似乎是我应该检查一下的地方。

所以,我把视频看了好几遍,核实了所有事实。所有数字都正确无误,包括MMLU分数的数据,以及AI在神经外科考试数据上的表现结果(我甚至记不清我什么时候引用过这些材料)。我唯一真正担心的是,它应该指出,我是我们在波士顿咨询集团研究中引入“锯齿状前沿”一词的几位合著者之一。另外,我不会像AI那样把所有事情都说出来(它有点夸张,而且我的书还没过时!),但确实没有实质性错误。

我认为这个过程是新一波人工智能的典型特征。对于越来越多复杂的任务,你只需一个模糊的请求就能得到令人惊叹的复杂输出,但你却无法参与其中。你不知道人工智能是如何做出这些选择的,也无法确认所有选择是否完全正确。我们正在从塑造流程的合作者转变为接收输出的请求者。这是一个从与协同智能合作到与魔法师合作的转变。魔法完成了,但我们并不总是知道该如何处理结果。这种模式——令人印象深刻的输出,不透明的流程——在研究任务中更加明显。

祈求魔法

目前,没有哪个人工智能模型比 GPT-5 Pro 更像一个巫师,但它只对付费用户开放。GPT-5 Pro 确实能够完成一些令人惊叹的壮举。例如,我给它读了一篇学术论文,并要求它“批判这篇论文的方法,找出更好的方法并应用它们”。这可不是普通的论文,而是我的求职论文,也意味着我作为学者的第一部重要著作。我花了一年多的时间撰写这篇论文,并经过了领域内许多杰出人士的仔细研读,最终经过同行评审并发表在重要期刊上。

九分四十秒后,我收到了非常详细的批评。这不仅仅是编辑部的评论,GPT-5 Pro 显然用代码自己做了实验来验证我的结果,包括进行蒙特卡罗分析和重新解释我统计模型中的固定效应。它最终提出了许多建议(尽管幸运的是,它最终得出结论:“(我论文的)标题论断经得起推敲”),但其中一条建议尤为突出。它发现了一个之前未被注意到的小错误。这个错误涉及两个表格中的两组不同的数字,而这两个表格之间的关联方式我并没有在论文中明确说明。AI 发现了这个之前从未有人发现过的小错误。

我又一次面临向导问题:这是对的吗?我检查了结果,发现是对的,但我仍然不知道AI做了什么才发现这个问题,也不知道它声称做的其他事情是否如描述的那样发生了。不过,GPT-5 Pro 的分析给我留下了深刻的印象,所以我现在向这个模型抛出各种各样的问题,无论大小: Gartner 的炒作周期是真实的吗?人口普查数据是否显示大型企业对人工智能的使用正在下降?只要问 GPT-5 Pro 就能得到正确的答案。我想。我还没有发现错误,但这并不意味着没有错误。当然,还有很多其他任务,AI 无法给出任何好的答案。谁知道向导会怎样呢?

为了了解这如何很快应用于更广泛的工作领域,不妨考虑一下另一个先进的人工智能系统——Claude 4.1 Opus,它最近获得了处理文件的能力。它尤其擅长处理Excel ,所以我用一个我熟悉的Excel文件给它做了一个高难度的挑战。我在创业课上用过一个练习,它分析一家小型办公桌制造企业的财务模型,以此来学习如何在不确定的情况下进行规划。我把一个旧的、多标签的Excel文件交给Claude,并要求AI根据新的业务——一家奶酪店——进行更新,同时保持整个练习的目标不变。

只需这条指令,它就能读取课程计划和旧电子表格(包括其中的公式),并创建一个新的电子表格,更新所有信息,使其适合奶酪店的教学。几分钟后,只需一个提示,我的电脑上就下载了一个全新的、转换后的电子表格,它包含全新的数据,但仍然传达着核心课程的内容。

左边是原始文件,右边是克劳德给我的

再次,巫师没有告诉我它的诀窍,所以我不得不仔细检查结果。从我看到的结果来看,它们似乎非常好,在新的背景下保留了经验教训。我确实发现了公式和业务模型中的一些问题,我会采取不同的做法(例如,我每年的工作日会更少),但这感觉更像是意见分歧,而不是实质性错误。

我很好奇 Claude 能走多远,而且因为每个人都问我 AI 是否可以做 PowerPoint,所以我也提示道:“太好了,现在为这个业务制作一个好的 PowerPoint”,并得到了以下结果。

这对于一份融资演讲稿来说,是一个相当扎实的开端,而且没有重大错误,但它还远未达到可以立即使用的程度。这凸显了人工智能的复杂前沿:它在某些方面非常擅长,而在其他方面则表现糟糕,如果没有经验,很难预测其表现。我一直在向大家展示人工智能能力不断扩展的前沿领域中的例子,但这并不意味着人工智能可以同样轻松地完成所有事情。不过,在这篇文章中,我的重点并非人工智能能力的不断扩展,而是我们与人工智能之间不断变化的关系。

巫师的问题

这些新的人工智能系统本质上是代理,能够自主规划并采取行动,实现既定目标。当我要求 Claude 修改我的电子表格时,它会规划出步骤并执行,从读取原始电子表格到编写新表格。它还能处理意外错误,两次修复电子表格(无需我要求),并多次验证答案。我没能选择这些步骤,事实上,在新一波由强化学习驱动的代理中,没有人会选择步骤,模型会学习自己解决问题的方法。

Claude 报告了更改电子表格的步骤

我不仅无法干预,也无法完全确定人工智能系统实际上做了什么。克劳德报告的步骤仅仅是其工作的摘要,GPT-5 Pro 提供的信息更少,而 NotebookLM 几乎没有让你深入了解其制作视频的过程。然而,即使我能看到这些步骤,我也需要成为许多领域的专家——从编码到创业——才能真正了解人工智能在做什么。当然,还有准确性的问题。如果不核实每一个事实,我怎么知道人工智能是否准确呢?即使事实是正确的,也许我会对如何呈现或构建它们做出不同的判断。但我无能为力,因为巫师们不想要我的帮助,而且他们以连他们自己都无法解释的秘密方式工作。

难就难在结果不错,非常好。我精通本文中交给AI的三项任务,在这些输出中我没有发现任何事实错误,尽管有一些小的格式错误,以及一些我本可以做出的不同选择。当然,如果不检查每一个细节,我无法确切地告诉你这些文档是否没有错误。有时,这比你自己做这项工作花费的时间少得多,有时则要多得多。有时,AI的工作非常复杂,即使你尝试检查也无法做到。这暗示了另一个我们没有充分讨论的风险:每次我们把工作交给一个“巫师”,我们就失去了发展自身专业知识的机会,失去了建立评估巫师工作所需的判断力的机会。

但我还是要回到一个不可避免的问题:至少在这些情况下,结果还是不错的。这些结果符合我预期,一个研究生只需要花几个小时(或者更长时间,比如重新分析我的论文)就能得到结果,只不过我几分钟就得到了结果。

这就是巫师的问题:我们得到了一些神奇的东西,但我们也成为了观众,而不是魔术师,甚至不是魔术师的助手。在共同智能模型中,我们引导、纠正并合作。而越来越多地,我们会提示、等待,并验证……如果我们可以的话。

那么,我们该如何对待我们的巫师呢?我认为我们需要培养一种新的素养:首先,学会何时召唤巫师,何时与人工智能协同工作,或者干脆完全不使用人工智能。人工智能远非完美,在它仍然不足的领域,人类往往能够成功。但对于越来越多需要人工智能发挥作用的任务而言,协同智能及其所需的反复沟通,通常比单靠机器更胜一筹。然而,越来越多的时候,召唤一位巫师才是最佳选择,只需相信它所召唤的一切即可。

其次,我们需要成为输出而非过程的鉴赏家。我们需要在人工智能提供的输出中进行筛选和筛选,但更重要的是,我们需要与人工智能充分合作,培养对它何时成功、何时失败的直觉。我们必须学会判断什么是对的,什么是错的,以及什么值得冒险去了解。这给教育带来了一个难题:当人工智能本身阻碍人们精通领域时,如何训练人们去验证他们尚未掌握的领域的工作?找到弥合这一差距的方法日益紧迫。

最后,拥抱暂时的信任。向导模型意味着更多地使用“足够好”的原则,这并不是因为我们降低了标准,而是因为完美的验证变得不可能。问题不在于“这完全正确吗?”,而在于“这对于这个目的来说足够有用吗?”

我们已经习惯于相信科技魔法。每当我们在不了解路线的情况下使用 GPS,或者让算法决定我们看到的东西时,我们都是在相信另一种类型的魔法师。但两者之间有一个至关重要的区别。当 GPS 失灵时,我很快就会发现我走到了死胡同。当 Netflix 推荐了错误的电影时,我就不看了。但当人工智能分析我的研究或转换我的电子表格时,它越先进,就越难知道它是否出错。与人工智能魔法师合作的悖论在于,能力和不透明度同时上升。我们最需要这些工具来完成我们最无法验证它们的任务。这是童话故事中的古老教训:魔法越厉害,谜团越深。我们会继续召唤我们的魔法师,检查我们能检查的,并希望咒语能够奏效。九分钟就能完成一周的分析,我们怎么可能不这样做呢?欢迎来到魔法师时代。

立即订阅

分享

原文: https://www.oneusefulthing.org/p/on-working-with-wizards

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme