![]()
建造你自己的工厂
完整节目邀请了三位先锋创始人,探讨新的生产方式: Guillermo Rauch (Vercel)、 Blake Scholl (Boom Supersonic)和Max Hodak (Science)。
第一部分:浪费代币,节省时间
妮薇:欢迎收听海军播客,这里是您获取新知识的权威来源。今天我们尝试一些新内容。今天我们邀请到了三位先锋创始人——实际上,他们都是帅哥,还有一位帅哥,他就是海军本人。
让我来给大家介绍一下。
吉列尔莫·“G”·劳赫正在将Vercel打造成一个面向智能体及未来应用的AI云平台。
布莱克·斯科尔。他正在自己的工厂里建造Boom Supersonic公司的超音速飞机和喷气式发动机。
还有来自《科学》杂志的马克斯·霍达克。他正在构建一种生物混合脑接口,在硅上培育活神经元,以恢复视觉等感觉功能——但最终目的是探索大脑的新区域和新的感觉。
这三位都没有使用现成的零部件来组装产品。他们都在自建工厂。我们并不太关心他们具体生产什么产品,而是更关心他们从生产过程中学到了什么。
他们正在创造哪些新知识?
他们的阿尔法是什么?
他们发现了哪些其他创始人可以借鉴的原则?
他们现在试图弄清楚什么?
Naval,在我加入Guillermo之前,你有什么想法吗?
海军:是啊,咱们就玩得开心点吧。
尼维:你们应该直接跳进去。
人工智能软件工厂
吉列尔莫·劳赫:我记不清我的原话了,但我一直对软件工厂这个概念很着迷。工程师的工作就是按时上班,直接交付成果,公司内部的一切问题都围绕着——“A交付B成果的能力如何?”
现在的情况是,我作为工程师评判你的标准是:“你是否在建造能够生产从 B 到 Z 的倍增产出的工厂?”
这是一个相当大的变化。我们过去一直认为——而且这种观点以前颇具争议——工程师的数量是现在的十倍。
现在工程师的数量显然是原来的 100 倍甚至 1000 倍,但世界还没有完全适应这种情况。
纳瓦尔:我以前在推特上说有十倍工程师,经常被人喷,因为这与人人平等的理念背道而驰。但现实是,当你在思想领域、智力领域和虚拟数字领域工作时,那根本不是十倍——而是百倍甚至千倍,而且一直都是如此。
中本聪、Notch、JavaScript 的发明者、业界巨擘 Brendan Eichs、约翰·卡马克。他们都是编程领域的千倍精英。
更何况,选对了工作方向和选错了工作方向,差别可是天壤之别。而且,这可能并非取决于程序员的水平,而仅仅是取决于他一开始就对工作方向的判断是否准确。
而现在,由于人工智能的普及,这个问题显然已经不再那么具有争议性了。
吉列尔莫:真正引起争议的是代币排行榜。人们仍然有些困惑——“嗯,我有很多100倍工程师。看看我花钱买的这些代币。”
我很好奇你们是否也遇到过同样的情况——你们是如何衡量投资回报率的?
Blake Scholl:这就像过去衡量代码行数一样。令牌消耗和代码行数感觉也是不太直接的衡量标准。
Max Hodak:我的观察是,Claude 或 ChatGPT 的性能基本上取决于你在这个领域的水平。如果你是一位能力很强的开发者,它们会非常强大。如果你是一位初级开发者,你会发现它们更适合初级开发者。你偶尔提供的反馈似乎极其重要——这些小小的更新似乎完全决定了它们的性能表现。
吉列尔莫:我现在提供一种新的支持方式——你来找我,说你的模型输出效果不好,我会告诉你应该用什么方式提示模型。重新提示的质量至关重要。
马克斯:说清楚点,我认为随着时间的推移,这一点会变得不那么重要。随着模型变得越来越智能,你就能用更少的输入获得更多的回报。但在现阶段,它似乎确实反映了用户自身的判断。
浪费代币,节省时间
海军:我一直不太想学那些技巧和窍门。“用Ralph Wiggum 。用OpenClaw 。用Hermes 。用这个提示引擎。用这个脚手架。插入这个片段。永远使用计划模式。”
我完全忽略了这些。我以为模型改进的速度会比我学会如何使用它的速度快得多。它学会如何使用我的速度也会比我学会如何使用它的速度快得多。所以我一直以来都笨手笨脚地对待它们。
我对它们感到很沮丧,随着时间的推移,我发现自己输入的信息越来越少,做的工作也越来越少,因为我总觉得可以靠蛮力解决问题。我会一遍又一遍地用 Codex、Claude 和 Gemini 来解决同一个问题,白白浪费代币来节省时间。不管这些模型看起来多么昂贵,它们仍然比人类便宜得多。所以我的建议是——浪费代币,节省时间。不要把代币看作是输入或输出。只关注你的时间和最终结果。
即使他们写的代码质量很差——我知道很多情况下确实如此——但到了要上线生产环境的时候,我只需要再投入一些资源。“检查一遍,看看,重写一下。”
它们只会一代比一代更好。我看不出这种进步何时才能停止。只要我们有可验证的领域和已解决的问题,它们就会继续解决这些问题。至于那些尚未解决的问题——也许你是陶哲轩,站在创新的前沿——你需要与模型密切合作,谨慎而紧密地工作。但我在软件工程领域还没达到那种水平。
指导人类的模型
海军:吉列尔莫,你可能是团队里最激进的软件工程师了。你觉得这些模型在接近其性能极限时表现如何?
吉列尔莫:最近发生的一件事与你刚才说的非常吻合。以前,你给模型一个提示,它就会进行经典的下一个词元预测,然后就完全按照你的想法来运行。现在,模型开始采用一种直觉式的规划模式——甚至不需要你要求它规划——它会主动告诉你:“你看,你问我的问题,我们可以采取这三种方案。以下是每种方案的权衡取舍。”
那一刻,X 上的人们开始做整件事——“现在我们有了一个博士级别的工程师模型。”
这些模型总有一天会“毕业”。它们以前是初级工程师,现在是高级工程师,因为它们会给你提供一系列权衡取舍。当然,有时候它们也会胡说八道,这很搞笑——比如它们会告诉你“这需要三周时间”或者“需要这么多代币”。它们的预测非常糟糕。但我对它们更加尊重,因为它们就像我的同行,我可以和它们进行理性的交流。
仍然存在很多差距。如果你是一位技艺精湛的工程师或建筑师,你仍然可以挖掘出更多潜力。
所以 Max 提出的问题是——如果你是初级员工,你能得到初级员工的待遇吗?
显然不是,因为初级工程师能学到比自己编写代码更高级的代码知识。但是,经验丰富的架构师获得的技能难道不是初级工程师的十倍吗?这正是我试图弄明白的问题。
Max:这里面涉及到架构决策。我现在就看到我们团队里一些初级软件工程师面临这个问题——他们职业发展的下一步是什么?他们要从编写功能实现代码过渡到选择技术。比如在Postgres和其他数据库之间做选择,在ZeroMQ和其他队列系统之间做选择。模型可以给出建议,但关键在于——你看到这些建议后会说:“不,不,我想用另一个。”
这种细微的反馈才是真正重要的,也是你目前似乎能得到的反馈类型。
海军:这完全取决于个人喜好和判断力,对吧?话虽如此,你还是可以问问模特们“我应该用哪个,为什么”,他们什么都知道。他们会给你一个非常全面的权衡矩阵。
吉列尔莫:这就是最近发生的变化。你会说,“嘿,把这些超高基数的遥测数据放到Postgres里。” 但它会说,“不行不行,兄弟。我们不把这种数据放到Postgres里。你应该考虑ClickHouse或者Athena之类的。”
这种情况我遇到过很多次。真是令人印象深刻。
我仍在思考的问题是——显然,模型仍然是由人来构建的。那么,什么时候情况会反过来呢?什么时候人开始收到指令:“去帮我弄到这个API密钥,因为只有你能做到。”
或者“给我弄到这么多资金用于下一批投资。” 你等着瞧吧。显然我们还没到那一步。
海军:这只是暂时的异常情况。很快,所有优秀的SaaS公司或托管服务提供商都会提供CLI和API接口,供模型直接使用。它们甚至不一定需要API。只要是基于文本的、基于Unix的——代理就可以自行修改API。至于支付部分——你输入加密代币,比如比特币,或者其他任何代币,模型就会自动支付它需要的任何费用。人们正在研究这方面。
纯软件已死吗?
纳瓦尔:我现在思考的问题是——纯软件是否已死?纯软件工程是否已经过时?这就像说英语一样。现在模型会说英语了。以前我们必须学习编程才能与它们交流。现在模型会说英语——模糊不清、含糊不清的英语,就像人类一样——而且它们还能理解事物。那么,创始人的护城河在哪里呢?硬件?硬件确实是一大优势。以前你必须开发硬件,而同时还要建立一家软件公司,这非常困难。帕特里克·科里森说过:“软件是艺术,而艺术家很难招到。”
现在,作为硬件创始人——太好了,你可以很快地开发出非常优秀的软件。
如果你在创建模型,那或许就是新的软件工程——训练、调整、后训练、微调。但传统的软件工程——它已经过时了吗?纯粹的软件开发还有投资价值吗?纯粹的软件开发还能围绕它组建公司和团队,并从中获得收益吗?
Guillermo:你们看过Mitchell Hashimoto在X上发表的一篇文章吗?文章标题是《构建模块经济》。他的论点是,现在对智能体来说最有用的东西是功能强大且可重用的构建模块。以Max的例子为例,你不会指望你的机器人每次需要发送电子邮件时都重新发明一个队列基础设施系统。它需要引入合适的构建模块,并且模块的大小要适合当前任务——“好的,这次用BullMQ 。”
我质疑这种观点:我希望智能体从根本上重塑整个宇宙,使其与社会和文明的其他部分格格不入。这几乎就像为了你而重新设计高速公路、法律和政策一样。即使存在进一步优化的潜力,但“我们都依赖于Postgres 13.2”这一说法仍然具有大规模合作的价值。
这些智能体将要使用的基础设施软件和构建模块——当然,我这么说可能带有偏见,毕竟这是我们正在构建的——极其宝贵。我不认为智能体会在短期内完全重新发明这些东西。
我一直在用的另一个比喻是:任何模型可以复用的现有资源就像一个令牌缓存。你肯定不想为了复制已经存在的东西而去处理数万亿个令牌。模型总能找到一个可以衍生出来的起点。这将会带来非常深刻的改变。
Naval:所以这些就像是模型的库和依赖项。
吉列尔莫:是的——特别是对于经纪人而言。
你再也不会陷入困境了
马克斯:不过,关于纳瓦尔的问题——我从小就学编程。整个青少年时期到二十多岁,我经常沉迷其中,一写就是二十个小时。那真是太有趣了。我对各种编程语言都了如指掌。
我已经很久没写过一行代码了。一部分原因是我的工作变了。但更重要的是——从去年十二月开始,我开发了大量的软件,现在每天都在使用。所有这些项目,我曾经幻想过好几年,现在都变成了我亲手打造的。这些代码我一个都没写。我实在无法想象再回到手工编写代码的时代。我很难把那看作是未来生活的一部分。
吉列尔莫:真正厉害的是,你明白各个部分是如何协同工作的。任何了解 API 是什么、数据流、输入输出、性能的人——因为你必须围绕“我对这次操作的预期水平”来构建模型。这始终比编写代码有用得多。一位真正优秀的工程领导者会通过 Slack 或一对一会议来传递所谓的“灵感编码”——你传递你的意愿、你的意图、你的经验,然后让其他人在此基础上继续发挥。现在我们用代理做同样的事情。这就是你们成功的原因。我不确定每个人都能取得同样的成功。
纳瓦尔:我二十年没写过代码了,现在却一直在写——通过代理人。我开发了大量的软件。事实证明,只要理解软件工程和算法的基本原理,就能走得很远。我之前停止写代码的原因是,我没有时间去研究最新的语言、最新的架构以及需要接入的基础设施组件。Vercel 的确让这一切变得容易得多,但即便如此——入门仍然非常困难。把各个组件连接起来,搭建基础设施,简直太烦人了。
马克斯:真正改变的是——以前你可以构建很多东西,很多东西都能顺利完成,但总会遇到一些随机问题,然后你可能要花很长时间去调试一些细枝末节的问题。现在,有了智能体,你就不会再卡住了。这真是太棒了。它们能很快找到正确的方法。以前——我记得其他朋友尝试学习编程的时候,他们会说——“不行,这本身就很令人沮丧。这是学习的一部分。这就是学习的方式。”
但现在情况已经完全不同了。
第二部分:Vibe 编码硬件
涡轮叶片的振动编码
妮维:嘿,布莱克,你在Boom Supersonic是怎么运用这些技能的?
布莱克·肖尔:这彻底改变了软件和硬件开发人员的角色。从一开始,我们就尝试将许多传统的工程工作流程——尤其是硬件工程工作流程——转化为软件流程。如果你不了解硬件工程,让我来解释一下。很多硬件工程工作都是在工程师笔记本电脑上的Excel表格中独立完成的。这些表格非常复杂,有时甚至包含VBScript代码。所有这些实际上都是软件,但却被当作软件来对待。没有源代码控制,也没有自动化测试。如果你想把空气动力学家的工作成果交给结构工程师,那只能通过电子邮件手动发送电子表格。这简直是上世纪九十年代的水平,太糟糕了。
因此,我们开始构建软件框架,以实现硬件工程流程的自动化和可重复化,目的是降低迭代成本。但进展缓慢——我们始终无法负担足够的软件工程师。如今,我们采用了一种截然不同的模式:软件工程师负责架构设计,因为他们理解系统、算法和职责划分。然后,硬件工程师可以凭借对硬件工程的了解,快速编写各自的代码。这种模式为小型团队带来了惊人的生产力提升。
举个例子。如果你要设计一个涡轮叶片——传统上,涡轮叶片初始状态是冷态的,但运转时会升温,体积也会增大。你必须同时设计其空气动力学和结构,使其能够适应冷态和热态两种状态。你需要在冷态和热态之间、结构和空气动力学之间进行转换。这通常需要一位工程师花费一天时间来完成一个叶片的分析。而一台喷气发动机大约有上千个叶片。这样一来,工程师能做的就非常有限了。现在,有了软硬件结合的解决方案,你可以改变叶片的几何形状,并实时查看结构和空气动力学方面的变化。两位工程师就能设计出一台完整的喷气发动机。这简直是天壤之别。
吉列尔莫·劳赫:你刚才提到的一点是,软件工程师正在为其他工程师创建工具和架构。在我看来,这是企业软件领域最大的变革——如今,再也没有哪家初创公司能靠开发硬件协作工具来销售产品了。在企业内部,你只需要编写你在任何特定时间需要的代码。就连电子表格也变得有些过时了。电子表格之所以成功,是因为当时没有人能够开发定制软件。而现在最接近定制软件的,就是一个包含大量VBScript函数的电子表格。
海军:没错——它们是轻量级程序。
Max Hodak:我个人几乎完全从Excel转向了Python模型,这样可以得到逼真的模拟结果。人工智能目前还没有做到这一点,但我认为在未来一年内——可能在2026年——它就能做到,这将非常令人兴奋:现在它可以生成软件,但很快就能生成STEP文件和PCB布局。至于机械和电气工程,那又是我们尚未见过的全新领域了。非常酷。
开源化合物:中国的优势
海军:从硬件方面来看,这对所有那些编写糟糕软件的小型设备公司和零件公司来说都是个好消息,因为他们自己做不出优秀的软件。现在他们终于可以做出足够好的软件了。或者,它甚至可能不是那种需要人机交互的软件——它可能完全是智能体,由一个代理程序访问,你可以通过语音与它对话来控制硬件。
这就是中国大力推行开源模式的原因之一。他们全力投入开源,是因为他们拥有硬件优势。他们拥有非常复杂的供应链和零部件供应链。他们基本上是在说——“嘿,如果我能按需生成软件,那么我就不再处于相对于硅谷的劣势了。”
这并非他们搞开源的唯一原因。他们也落后于时代,正在提炼模型,努力追赶,并积极开展资源合作。但中国政府历来都致力于资助那些能够促进整个生态系统发展的项目,尤其是在网络效应型产业领域。他们希望整合所有资源,在人工智能领域迎头赶上,并利用人工智能提升其硬件产品的优势。
讽刺的是,他们之所以做这么多开源项目,恰恰是因为OpenAI本身并不开源。Grok 会发布模型,但他们的模型总是落后一两个。谷歌有一些本地模型,但没什么真正有竞争力的。至于Anthropologie ,据我所知——我甚至不知道他们有任何开源模型。所以,所有开源的重任都来自中国。这固然对我们硬件厂商有所帮助,但对他们的硬件厂商和工厂的帮助更大。那些你在亚马逊上买来,打算在慵懒的周六下午捣鼓的、附带各种小玩意儿的劣质软件——这些软件正在迅速改进。
吉列尔莫:大家都已经意识到,如果没有优秀的创新编程模型,就无法自我提升。试想一下,如果整个中国都无法生产所有前沿技术,那会是什么样子?这不仅仅是软件生产的问题——就像布莱克说的,在硬件生产链的任何环节,都需要软件生成。如果软件生成能力落后,那么所有技术的生成能力都会落后。
你总是想要最智能的型号
吉列尔莫:我很好奇一件事:大家都喜欢谈论中国模特。你们用中国模特吗?你们认识用中国模特的人吗?
海军:不。这是我昨天吃饭时跟人争论的话题。桌上有人说,97% 的事情你都会用DeepSeek ,因为它太便宜了,如果需要更高级的功能,你只会一遍又一遍地运行它——结果还是一样。只有最复杂的任务你才会用 OpenAI、Anthropologie 之类的。我当时就想,“我不知道。” 我认为智能本身就是一件好事。你总是想要更高级的功能。这些模型出错的时候,你根本不知道。而且它总是比真人便宜,还能实时运行。
所以你只会用最智能的模型。这其实不是什么好消息,因为这意味着你最终会在人工智能领域造成垄断或寡头垄断。但我总是想要最智能的程序员,总是想要最正确的答案,总是想要最佳的判断。考虑到我将投入的资源——资金、代码、人力和市场营销——我希望每次都能做出正确的决定。当我有两个模型,其中一个我知道比另一个稍微智能一些,而且它们都给出了答案时,我通常并不知道哪个才是正确的答案。所以如果我知道一个模型更智能一些,我就会选择它的答案,最终我会停止询问我认为不太智能的那个模型。你们有没有找到这些所谓的“不太智能”的模型的用途?
吉列尔莫:我们看到了它的用途。我们有AI网关数据——基本上每个应用程序代理都要经过它。开放模型肯定有应用,但最前沿的算法仍然占据主导地位。
但需要注意的是:价格合理、性能卓越的前沿智能模型在规模化应用中表现出色。Gemini——人们对Gemini并不十分热衷,但他们推出的模型在性能和成本方面达到了极佳的平衡。有趣的是,对于编码以外的许多任务,它们都是最佳的工业生产模型。你可以将它们用于支持任务或浏览器自动化。我通常会在这些任务中使用Gemini模型,而对于其他类型的任务,我会考虑使用国产模型。
但每当我致力于拓展技术前沿时,都需要尽可能最佳的编码模型。这基本上需要两到三种模型。中国肯定不在其中。
软件开发仍然需要人手
尼维:麦克斯,你似乎在大力推进垂直整合,而且节奏非常快。你想谈谈这个吗?
马克斯:很多东西是买不到的,所以你只能想办法自己做。当然,像前沿模型之类的东西我们肯定不会这么做——我订阅了Anthropic的服务。正如Naval提到的,我们确实会用到一些中国产的模型。我们也用一些Qwen和DeepSeek的模型。我们对3.2版本做了大量的内部微调,我用它来做很多事情——我们很快会考虑移植到4版本。但这只是我个人的做法,与公司无关。
我们始终倾向于购买现成的产品。如果有供应商能以优惠的价格提供服务,例如PCB板。我们不生产PCB板,因为它们基本上是免费的,可以从亚洲无限量购买。但是,我们的产品越接近于由共价键合而成的单一整体,性能就越好。功耗更低、体积更小、性能更高、寿命更长。然而,这些组件目前无法直接购买。为了实现这种集成——真正超越简单地拼凑现成零件的局限,进行创新——你必须学会自己动手。这就是垂直整合。因此,我们在美国东海岸拥有一家自有的MEMS晶圆代工厂。除此之外,别无他法来实现我们想要的封装和组装方式。
未来几年,人工智能将对这一切产生深远影响。但目前它尚未完全成熟。具有讽刺意味的是,我们在公司内部看到人工智能带来的最大影响之一,恰恰体现在监管互动方面。过去,如果我们能够生成文档,或者提出这样的问题——“我们想改进这款产品,可能涉及数千项ISO标准,我们需要遵守哪些标准?如何追溯这些标准?”——这需要整个监管和质量团队花费数月时间才能完成。而现在,人工智能几乎可以自动识别。
当我想到外科手术项目或微机电系统(MEMS)制造之类的项目时——归根结底,软件仍然需要人为操控。它会比我们更智能,但如果它不能制造东西,那就是真正的局限。我们已经对代工厂以及公司许多其他部门进行了相应的改造,随着这些模型的不断完善,其效果应该会很快体现在我们正在进行的细胞工程和材料科学等领域。我们的蛋白质工程团队大量运用深度学习——我认为我们在这一领域可能处于领先地位。但这与具体应用密切相关。在公司的不同部门,它意味着不同的东西。没有一个统一的答案。
人类正在成为验证者
海军: Max刚才说的监管方面的事情让我意识到——我已经很久没找律师起草过基本的法律文件了。我不再让律师帮我起草保密协议、各种协议、签字、做研究了。所有基本的法律工作也都消失了。有个老笑话说法律就像意大利面条代码——非常复杂的代码,他们试图用英语表达出来。它跟这里的代码相矛盾,又必须符合那里的代码。根本没有真正意义上的API可以调用。
对于初级工程师和初级工程人员来说——初级工程师基本上晋升为高级工程师,而初级工程人员的工作则由代理人接管。同样,在法律界,你可以说“律师助理被解雇了”,也可以说“律师助理晋升为高级律师,现在他们可以把时间花在思考法律上了”。
吉列尔莫:软件工程的发展和律师行业的发展其实有很多相似之处,这很有意思。你永远无法确切地知道律师在这些文件里写了些什么——你只能信任他们。“嘿,律师,你能看看这份文件吗?你能告诉我它是否合法吗?你能帮我修改一下吗?”你与律师建立关系所看重的,是他们是值得信赖的权威。他们上过法学院,他们把自己的声誉放在了法律之上。
这与软件工程有相似之处。如今最大的问题就是大量代码最终堆积成PR( Pull Request,公关稿)里。推特上到处都是这样的梗——“想当年,我们可是会把PR里的每一行代码都读一遍的。” 在我的领域——基础设施——我希望工程师能够说“我理解”PR里的每一行代码。这并不一定意味着你读过每一行。而是意味着你可以说“我理解这个PR的后果。我确认理解这些后果。” 或者,“我编写了测试框架、模拟、证明、类型检查器——即使没读过这些代码,我也有信心确认它在生产环境中是安全的。”
有一种观点认为,所有代码都会是难以理解的意大利面条式代码,但我们编写评估工具来增强信心,并依赖基础设施生产工程师来判断“可以,我可以放心地把这个部署到生产环境”。如果你的系统宕机了,肯定会有人被通知。还有一点人们低估了:软件开发其实很简单,从零到一。但想想一千天之后,你的软件会是什么样子?它安全吗?经过测试了吗?达到生产级别了吗?性能如何?你还有动力投入所有资源来维护它在生产环境中的运行吗?
海军:人类正在成为验证者。我们正是通过高质量的验证数据来训练这些模型,而现在我们需要人类验证者。许多过去由人(律师、工程师、运维人员)承担的职能,现在都转移到了验证技术栈,并表示:“嗯,这大致正确,我大致认可它,如果出了问题,我会支持你们。”
第三部分:监管前沿
监管红皇后竞赛
布莱克:我们发现,监管方面的一个显著特点是——它能大幅降低人们对变革的抵触情绪,并促进迭代。举个例子:假设你要认证一架飞机。你需要做的无数事情之一就是证明它能承受雷击。测试计划的监管文件长达200页。通常的做法是,雇佣一个——说实话——不太聪明的工程师,让他待在那儿敲敲键盘,写200页的合规性文件。这需要几个月的时间。而且,如果你后来对飞机进行了改动,你肯定会崩溃,因为还得再花两个月的时间重新编写这些枯燥的合规性文件。
我们发现,我们可以构建一个红黄绿灯系统(RAG) ,它能让我们在几分钟内快速完成所有工作。首先,它能节省大量时间。其次,如果更改飞机规格,现在只需几分钟,而不是几个月。因此,你更有可能做出改变。第三,由于变更成本降低,你可以淘汰那些能力平庸的工程师,只留下少数真正富有创造力、能够快速迭代的工程师。从某种意义上说,所有繁琐的监管负担——这些负担严重阻碍了迭代能力——都消失了。
马克斯:这在人工智能领域目前被严重低估了。硅谷的共识是监管很糟糕——我们想要更快,我们想要实现美好的未来,我们想要富足、繁荣,任何会拖慢未来步伐的东西都应该避免。当然,我们确实过度监管了。我们让产品开发变得不可能。在很多地方,建造任何实体产品所需的成本都高得离谱。
但很多法规本身并不是问题所在。如果你仔细阅读过这些法规——拥有没有雾霾的城市固然很好,能够在很多河流中游泳也很棒。这些都是进步的体现。问题在于,人们很难理解并遵守这些法规,而且每次与政府部门来回沟通都要等上几个月。如果我们能把已经学到的很多东西都简化到完全无阻力的程度,那就太好了。我觉得这一点被低估了。
海军:直到监管机构开始向我们索要各种限制条件。然后你就会收到监管机构寄来的大量文件,你必须遵守,然后就会爆发代理人之间的战争。但至少这是一场公平的较量。
马克斯:基本上,这就是我们现在的情况。
布莱克:我倒觉得这比我们现在的情况要好得多。现在最糟糕的一点是,如果你要建任何实体建筑,就必须申请建筑许可证。在证明自己无罪之前,你都得背负罪名。我们遇到的最糟糕的事情就是消防部门,因为他们肩负着从火灾中救人的重任,给人以道德上的认可——然而,他们实际上却会花几个月的时间来刁难你的建筑设计。如果我们能用一个可以快速审核建筑方案的机构来取代消防局长——即使他们的反馈有时过于苛刻——那也比现在这种拖延的情况要好得多。
吉列尔莫:当马克斯谈到这些规则或许是件好事时,我脑海里浮现的却是:智能体成功的关键在于人类或其他智能体设置了合适的测试规则。人们对斜率目标或拉尔夫循环之类的东西很感兴趣,你告诉模型“去做这件事,这是你的退出标准”。而我告诉布莱克“去让我们都飞到超音速。你的退出标准是遵守所有这些规则”。我们完全可以这样理解:这些规则很棒——它们就像我们的测试套件。只要通过这些规则不会产生矛盾,而且这些规则本身也合理,它们就是绝佳的保障。否则,我们岂不是直接把垃圾送上天?
海军:这将会变成一场红皇后竞赛。他们会有智能体,我们也会有。我认为我们的智能体可能会更优秀——这很好,总比人与人之间的较量要好。但他们的周期和响应时间可能会更长。App Store 现在被垃圾邮件淹没了。我敢肯定专利局也一样。这些机构对人工智能的接受速度会很慢。精明的企业家会用大量的文件淹没他们,导致他们遭受 DDoS 攻击。随着申请数量突然激增,审批时间可能会延长。
为什么医疗保健领域缺乏创新
布莱克:这为真正转变监管模式创造了机会。想象一下,如果我们开车出行的方式和现在建房子的方式一样。在去任何地方之前,你必须先写一份计划,提交给监管机构,然后等待审批。你的计划必须详细说明:“我们将走某条路线,按限速行驶,使用转向灯,在每个停车标志前停车,绝不闯红灯”,等等等等。三个月后,你会收到反馈:“我们认为你应该走另一条路。”最终你获得批准,然后开车去某个地方。这太荒谬了——你根本哪儿都去不了。然而,这正是我们国家建设基础设施的方式。我们应该更多地采用执法导向,而不是预先审批导向。
马克斯:我不想承担太多责任——如果我要把医疗器械运给很多人,那就必须考虑到——总会有未知因素。我们尽职尽责,我们进行了临床试验,我们报告了所有数据,但是——
海军:麦克斯,这就是为什么现在医疗领域创新如此匮乏的原因。FDA的审批流程简直是一场噩梦。事实上,过去十年硅谷科技领域最大的两项进步——人工智能,以及之前的加密货币——都属于数学领域,因为那是最后一个尚未受到监管的领域。一旦他们开始监管前沿模型和GPU,创新也会随之停止。彼得·蒂尔感叹物理领域缺乏创新。嗯,这的确是被巨大的监管壁垒所阻碍的。
你总能找到一些耸人听闻的例子——比如疫苗,或者著名的医疗灾难——但监管无处不在,触角遍布各处,而且监管机构之间还互相矛盾。SpaceX 公司因为雇佣的移民或难民人数不足而被起诉——我忘了具体是什么人了——但另一方面,由于政府法规的限制,他们又不能雇佣这些人,因为他们不是公民。这不像逻辑代码那样需要统一编译。这些法规都是随意制定的,到处都是。你可能遵守某个州的规定,却违反了另一个州的规定;可能违反了联邦法规;可能得罪了某个人,而那个人却会选择起诉他五十个朋友中的一个。这完全是任意的,反复无常的。
布莱克:认为这能让飞机更安全完全是无稽之谈。看看波音公司就知道了。他们认证了737 MAX ,那架飞机只有一个传感器,却能完全控制飞机的机头上下姿态。哪个实习生会傻到觉得这是个好主意?可它居然通过了认证。这些东西实际上并不能让我们更安全,只会让我们更慢。
马克斯:嗯,这里肯定存在一些问题。我认为从某种意义上说,核管理委员会(NRC)的做法反而让我们更安全——他们的职责是确保核能安全,而他们通过从上世纪七十年代到大约一年前停止审批任何核电站来实现这一目标。如果我们一个核电站都不建,那也绝对安全。
我想明确一点——在很多方面,我支持放松管制。我同意布莱克的观点,很多事情可以做得更高效。但我认为,简单地说“这只是FDA,只是其他机构的问题”未免过于轻描淡写。问题远比这复杂。如果FDA批准了十种非常重要的药物,他们得不到任何赞誉。一旦有一名患者死亡,他们就会被传唤到国会,遭到严厉斥责。他们的激励机制存在严重的负面偏见。事实上,这反映了美国民众的信念。在人们对人体试验风险的认知与我们获得新药的速度之间存在着一种权衡。
布莱克:这完全是不对称的。如果你批准了一件坏事,你的职业生涯就结束了。如果你阻止了一件好事,却没人会注意到。这就造成了不对称的阻碍。我认为这是监管体制中最需要解决的问题。
马克斯:这是一个非常深刻的问题,因为它关系到选民的立场。我们会就未来正在研究的一些项目进行民意调查,以了解美国民众对此的看法。如果你用力过猛,或许可以找到一些变通办法——比如去Próspera ,或者尝试各种其他方法来加快速度。但如果你被视为不良行为者,就会被我们所处的社会所排斥。这才是你需要找到答案的关键所在。这远比简单地说“我们需要监管改革”要复杂得多。
我们需要一项真正的涵盖50个州的实验
纳瓦尔:你说的很有道理,马克斯——关键在于选民,在于公民。我们总是喜欢责怪政客。你经常会在X网站上看到这种情况——人们会说,“这个政客,那个政客,还有那个政客。”他们都是靠多数票当选的。这就是民众的真实写照。这就是他们选择的方案,这就是他们最终选择的方案。你可能不喜欢这种形式,但即使你移除这个方案,也会有非常相似的东西取而代之,因为选民会再次投票给他们。
从文化角度来说,大多数人很难理解我们失去了什么,错过了什么。以法国为例——一位法国企业家在X网站上抱怨说,政府抽走了57%的GDP,所以根本没法创办公司。但对普通法国民众而言,这一点并不明显。他们没有意识到自己错过了什么。他们只知道自己比美国人略微贫穷一些。
《经济学人》最近发表了一篇小文章——经济学家们在三十年后终于又开始拥抱资本主义了——文章讲述了美国如何超越世界其他国家,增长更快,规模更大。但他们立刻又改口说:“这都是因为海洋,因为自然资源”——总之就是不提资本主义。他们不愿提及那个令人厌恶的“资本主义”字眼,因为不知何故,所有这些杂志都曾在某个时期变成了马克思主义者。他们无法想象,如果我们当初采取更自由放任、更开放的政策,世界会是什么样子。
我非常希望看到五十个州之间进行一次真正的实验。不同的法规,不同的税收结构。目前,联邦税收结构和联邦法规主导着一切。但想象一下,如果你得了癌症,可以去某个小州,尝试所有正在研发的药物。当然,买者自负——你必须做好调查研究。这被称为实验区。无人机也是如此。飞机也一样——难度更大一些,因为你需要穿越很多地区——但确实如此。
布莱克:这里面蕴含着某种神奇的东西——创新区的概念。我们面临着严重的“邻避效应” (NIMBY )。但如果你创建自愿参与的“支持邻避效应” (YIMBY)区域,就能构建一个实验框架。顾名思义,这种实验发生在人们同意的地方。你可以尝试不同的规则,或者不设规则,或者采用不同的执行方式——比如“无罪推定”——看看实际会发生什么。创新会带来什么后果?安全方面又会带来什么后果?然后,这些成功经验就可以推广开来。
马克斯:正如纳瓦尔所说,创新区并不能解决药物研发的问题。《尝试权法案》不久前才通过,但我们早在很久以前就有了“单例患者新药申请”(Single Patient IND)这条途径。如果你的医生打电话给FDA说:“我想给我的病人使用一种未经批准的药物”,FDA会批准超过99%的申请。他们甚至可以通过电话批准。
问题在于,要给病人用药,你仍然需要临床级别的药物。通常情况下,唯一拥有这种药物的实体是正在进行临床试验的知识产权所有者——他们为此投入了数亿美元。如果你的病人(他本身可能就病情严重)出现不良反应,FDA会做出不利推断,因为这被视为药物本身的特性,而药物是全球性的,与你的创新区域无关。所以这里有两个问题。第一,你需要让知识产权所有者给你一些他们的药物——他们肯定不会这么做。第二,你需要阻止全球监管机构质疑他们给你药物后,其临床试验可能会出现的问题。
布莱克:在医学领域,你会如何解决这个问题?
马克斯:这属于业内人士的范畴。例如,必须禁止FDA对同一种衣壳的不同用户做出不利推断。只要防止这种过度担忧左右我们的决策,就能以相对宽松的监管方式,真正加速创新。
中国的FDA比我们的好。
吉列尔莫:除了FDA之外,还有什么更好的监管机构吗?我们用什么标准来衡量这些监管机构?
海军:大家都遵守FDA的规定,大家都照搬FDA的做法。
马克斯:有两个方面可以考虑。首先是欧洲——虽然并不比美国食品药品监督管理局(FDA)好,但他们的体系不同。他们有公告机构——基本上是获得所在国政府授权的私营企业,负责认证各种产品,比如火车、飞机和医疗器械。公告机构体系在审核层面提供了更好的激励机制,因为他们可以雇佣员工、发展壮大,而且存在竞争。当然,他们自身也必须遵守所在国政府制定的条件,但这意味着他们的审核人员数量可能比美国多出数千人。
第二点——目前确实有一款获得批准并开始盈利的植入式脑机接口产品,它在中国。国家食品药品监督管理总局(CFDA)正在独立思考。我认为,如果我们不谨慎,他们的体系将会给我们带来巨大的竞争压力。将药物或医疗器械推向市场的成本要低得多。你可以先进行人体试验,然后再进行市场测试。
我一直在思考这个问题。二十年前,我们购买的笔记本电脑和手机数量远少于现在,而且每台都贵得多。现在它们更便宜了,数量却更多了,我们买得也更多了,总支出也增加了。这真是太好了。高通、三星和苹果的股价都大幅上涨。大家都很高兴。他们正利用手机和笔记本电脑带来的额外财富去购买更多的手机和笔记本电脑。
这种情况在医疗保健领域并不存在。由于医疗报销机制——也就是企业出售——我们用于医疗保健的资金总额基本上是固定的。它不会像科技增长型行业那样,随着更多医疗手段的进步而增加,从而带来更好的医疗效果。医疗保健支出的增长速度大致与税收收入的增长速度持平。如果人工智能蓬勃发展,取得重大进展,两年后我们在人工智能上的支出是现在的十倍,那当然是好事。但如果两年后我们在医疗保健上的支出是现在的十倍,那将是一场灾难。这与科技增长型行业的本质背道而驰。
医疗保健领域存在一个普遍存在的问题,所有问题都源于同一个原因:将这些产品推向市场的成本太高。这正是中国正在努力解决的问题。解决之道并非实行单一支付方制度或对医疗保险进行任何改革,而是降低成本,让人们能够用信用卡购买,甚至像买车一样分期付款——最坏的情况是——然后在交易时向他们收费。要做到这一点,我们必须降低这些产品的上市成本。中国正在这样做。这将使他们能够以1万美元的价格出售这些产品,而不是10万美元。这就是放松管制。
医疗保健是资本主义内部的共产主义社会
纳瓦尔:从根本上讲,医疗保健领域不存在私营市场。人们有时会打个比方——想象一下,你不是去餐厅吃饭然后付钱,而是去所有餐厅,月底把所有收据和账单都寄给你的保险公司或政府,然后他们再报销。这样一来,每家好餐厅门口都会排起长队。所有不好的餐厅也都会有人光顾。等待时间会非常漫长。医疗质量也不会提高。你实际上是在一个更大的资本主义社会里运行着一个小型共产主义社会。这就是我们在医疗保健领域正在做的事情。
布莱克:这也是我们在道路上所做的事情,所以才会造成交通拥堵。高速公路没有实行浮动收费,所以总是堵车。
海军:如果你想暂时触及医疗保健领域的敏感话题,请思考一下这个方案。告诉我它有什么问题。想象一下,你年收入的前20%是你的医疗保险自付额。如果你身无分文、无家可归,那就为零。如果你很富有,那就高达数百万美元。无论你的年收入是多少,前20%都是你的医疗保险自付额。其余部分由政府和保险系统支付,但不得超过他们目前设定的上限。
你会很快建立起一个私人市场。在牙科、整形外科以及许多其他可选的医疗项目中,你会看到竞争的局面,从而推动技术进步。看看眼科的激光近视手术,看看牙科的贴面、牙套和牙科手术,再看看整形外科。这些领域之所以发展迅速,正是因为它们是由私人付费——人们用金钱投票。
我们需要在常规医疗体系中也采取类似的措施。但人们却反应过度,甚至连想都不想。“不行不行不行,那穷人怎么办?”穷人没有收入。“20%对有些人来说太多了。”好吧,你可以设置一些自付额。但总的来说,如果没有私人市场让人们自费支付医疗费用,你就无法形成这种反馈循环,也无法让医疗体系获得更多资金。
目前,非常富有的人可以自愿向医疗系统付费。但是,价格信息却无处可寻。价目表也无处可查。这个系统并非为此而设计的。如果你去咨询医疗服务并想自费,他们有时会报出比保险公司收费高出十倍的价格。
Sid的故事:N-of-1药物
Max:你听说过GitLab创始人Sid的故事吗?他带领公司成功上市,之后却被诊断出患有一种罕见癌症。他活的时间远远超过了医生的预期。他真的非常积极主动。他接受了一线化疗,之后只剩下一个替代疗法,他也尝试了所有方法,医生们都束手无策了。但从那以后,六七家公司从他身上诞生。现在,他正在研发二三十种针对这种癌症的药物。他仍然健在。
吉列尔莫:他恢复得很好。前几天我见过他。他基本上是自己制定了一套个性化的用药和治疗方案。
马克斯:我已经听过不少这样的轶事了。对我来说,很明显,在高端领域——如果你不考虑保险,拥有充足的资源,并且想要“运用现代科学的全部工具”——可能会出现一些匪夷所思的结果。如果你去问你的医生,“如果我这样做会发生什么?”他们可能会开始大喊大叫,甚至摔东西。但在高端领域,这些匪夷所思的事情确实有可能发生。这种单例医学最终将成为研究如何开发更具转化性的疗法的重要资源。
吉列尔莫:这需要患者在最虚弱的时刻展现出极大的自主性,这真是莫大的讽刺。我的朋友死于癌症,他生前最不想做的就是研究N-of-1疗法——他当时每过一周就离世一次。人工智能应该在这方面真正发挥作用,让身处这种境地的人也能获得所需的帮助。令人难以置信的是,仅仅从知识层面,而不仅仅是金钱层面,只有极少数人能够获得这种帮助。
第四部分:自主公司
自主基础设施
Nivi:你们组织中有多少自主运行的软件,或者接近自主运行并能自我改进的软件?
吉列尔莫:我们的很多基础设施已经实现了自动化。我们有一种机制,一旦发现异常就会自动触发——我建议大家都开发一个类似的机制,或者也可以试试Vercel提供的现成方案。目前大多数工程团队应对异常情况的方式是手动设置警报或监控阈值,这简直太荒谬了,但整个行业都是这样运作的。
我们已经实现了SRE (站点可靠性工程)工作的自动化。任何导致吞吐量下降、上升或变化的指标都会触发异常警报,代理程序会进行调查,并决定是否创建事件。如果创建了事件,相关人员就会被通知参与,代理程序随即开始修复工作。我们几乎完成了所有工作,唯独没有赋予代理程序修改生产环境的工具——我们为工程师们提供了现成的解决方案。
另一项进展非常顺利的技术是:自主优化和自主安全研究。我们开源了一款名为deepsec的工具。它非常强大——就像 Mythos 一样,但你现在就可以使用。我们在云端使用一万个并发代理,对整个单体代码库运行了 deepsec。短短几天内,它就发现了相当于几个季度安全研究进展的信息,而成本仅为 14,000 美元代币——这相当于几个月的红队演练,以及整个团队的投入。
网络安全正变成一场噩梦:漏洞太多,工作量太大,对手太强大。你必须主动出击。你可能在推特上看到有人把代码库从一种语言翻译成另一种语言——一旦你完成了让程序运行的工作,现在利用前沿模型,用目标语言对其进行优化或重写就变得非常容易了。
Naval:就拿我自己用 Vibe 代码开发的应用来说吧——我为我的TestFlight用户搭建了一个 bug 报告队列。他们可以直接在应用内提交 bug 报告;系统会自动上传日志和截图。当然,他们也可以用它来提交功能请求。一个简单的守护进程会汇总所有 bug 报告,在后台主动分析并修复它们,然后给我发送一个 TestFlight 版本供我测试,之后我才会发布给测试人员。我设想未来可能会出现由用户真正构建的应用。我并不是说这是个好主意——它可能最终会一团糟。
吉尔莫:我们应该把那个东西寄出去,看看会发生什么。
海军:作为一项社会实验,最终你会得到一辆像荷马·辛普森的车——雨伞、手电筒、小丑喇叭,应有尽有。但如果是为了修复漏洞,这绝对可行。
你的工作是培训代理人
布莱克:我们也做过类似的实验。我让全公司所有项目停工一周,然后说:“从前台到工程师,每个人都去做你们认为最重要的东西。唯一的要求是:必须使用人工智能,而且完成后必须向全公司演示。”我原本以为会涌现出很多无意义的项目,只有少数真正具有突破性的项目。结果却恰恰相反——涌现出了很多具有突破性的项目,而无意义的项目却寥寥无几。其中两三个项目甚至改变了公司的发展轨迹,它们绝对会改变公司的未来方向。
最让我惊讶的是:前台接待员——也就是负责收发货的那位,她的工作是把包裹从卡车上卸下来,然后在货物入库时给相关人员发邮件——竟然自己开发了一套自动化系统。我们现在真的在用它。
我的结论是:每个人都对能让世界变得更美好的事物有一些想法,但他们最初的想法往往很愚蠢,而且他们无法将这些想法付诸实践。但如果他们能将想法变成现实,他们就能不断改进和迭代。给他们一周时间,到最后他们就能创造出一些有意义的东西。
吉列尔莫:想象一下,如果所有工作都这样。你该如何组建一支不直接做事——他们所做的只是训练替他们完成工作的智能体——的员工队伍?你必须不断提醒人们这一点,组织黑客马拉松。一种文化变革正在发生:许多新员工凭直觉就知道,他们的工作不是亲力亲为地去做某件事,而是训练替他们做这件事的智能体。
海军:情况可能会变得更疯狂。也许你可以打开所有摄像头,代理人观察发生的一切,发现收发货流程效率低下,然后编写应用程序并提交。
吉列尔莫:我们可能会在 AI Gateway 中加入一项功能,允许用户选择是否保存输入和输出。这样,你就可以说:“对于我所有的输入和输出,提取技能——从我的工作中学习,并将其作为技能导出,供我自己下载使用。”
你可以想象,公司里的人们想要共享和集中这些资源。
纳瓦尔:这很有趣——对我来说简直难以想象,因为我自己的工作并不重复。我一直在寻找可以自动化的环节,而我自己的工作中几乎没有什么可以自动化的了。我希望每个人最终都能达到这种境界:始终在自己最具创造力和兴趣的领域工作。如果还有什么可以自动化的,那就自动化——把它从你的生活中剔除出去,这样你就能解放出来去创造,而创造力才是你创造价值的源泉。
在传统的职业思维模式下,这一点很难被看清,因为你雇佣员工就是让他们一遍又一遍地重复同样的事情,而这种情况正在消失。这很可怕——人们会问:“我该怎么办?” 你要去做有创意的事情。你不需要每天都想出新点子——那是不可能的——但偶尔想出一个能创造突破口的新点子,就能带来优势。
下一部《指环王》
马克斯:从历史上看,投资回报率可能70%取决于智力,30%取决于代理。现在会变成70%取决于代理,30%取决于智力——而且随着模型的改进,这个比例还会进一步变化。
海军:我来反驳一下,Max。我认为智能占99%,自主性只占1%——因为智能体会行使自主性。你可以直接说:“嘿,智能体,我正在做出明智的决策,并且思考着重要的问题;去执行吧。” 有时候,我想在我正在用直觉编码的应用程序中添加一个功能,我会问智能体:“我接下来应该开发什么功能?去看看日志。”
马克斯:说清楚点,我指的是人类的回报。最适合未来的人类是那些更有自主性的人——那些能够打开Claude软件思考“我应该建造什么?”而不是去看YouTube视频的人。
纳瓦尔:这里有个有趣的实验。我们都知道,现在很多从事编程的人以前都不会——很多情况下,也包括我们自己。程序员的比例可能已经增长了十倍。
吉列尔莫:这就是为什么我们的注册人数激增——一大批非工程师出身的新人群。
Naval:但大多数人仍然不写代码。我跟别人说,“氛围编程真的很有趣。”我以前有个游戏小组,经常和他们一起玩第一人称射击游戏放松一下;后来我完全不玩了。那些时间都用来进行氛围编程了。它更有趣,你能从中获得实际成果,而且反馈机制同样有效,甚至更好。
我跟朋友们说:“你们应该试试用直觉编程(vibe coding)”,他们一脸茫然。对他们来说,编程一直是个黑盒子——他们以为你只是在跟电脑对话。他们没意识到现在编程已经容易多了。所以,我们可能已经把会写代码的人口比例从0.01%提高到了1%——姑且算100倍吧——但99%的人永远也不会写代码。
吉列尔莫:太疯狂了。这就像一款电子游戏——一款很棒的电子游戏——但现实中却会发生这样的事。
海军:普通人对视频的兴趣有所增加,但他们主要通过媒体模式——尤其是视频模式——来参与。比起编写代码和开发应用程序,更多的人热衷于制作视频和图像。但视频也有其自身的问题——也许有一天,“帮我拍一部关于X的精彩电影”就能拍出一部优秀的纪录片,但就目前而言,他们缺乏这种品味和判断力。
马克斯:我和安德烈·卡帕西打了个赌:你最快能在哪一年写完一本书,然后拍成电影?我觉得差不多——他已经大幅缩短了时间表。到2030年,我们会看到几十部《指环王》电影——到时候肯定会有粉丝说:“他拍错了,我要拍自己的版本。”
我的一个评判标准是:我是《太空无垠》的铁杆粉丝。这部作品有电视剧和九本小说;电视剧改编了前六本,但后三本没有,而且两者之间存在一些重要的差异。我期待着把后三本小说的内容,结合电视剧的剧情,然后说:“请根据电视剧的内容,创作出最后三季的剧集。”
吉尔莫:那真是个很棒的功能。你说“给我拍一部像《指环王》那样的作品”,我当时就兴奋极了——因为我们还没有出现过像《哈利·波特》和《指环王》那样在想象力和文化上具有突破性意义的作品。
你如何定义艺术?
海军:那么,人类究竟有什么独特之处?这才是问题的核心。麦克斯,你是个通用人工智能至上主义者——所以对你来说,人类什么都做不了;智能体什么都能做。
马克斯:我不是反人类的,但如果你把自己的价值建立在聪明才智和创造力上,那你以后会过得很艰难。
海军:我还在经历那段时期。创造力就是那种让你意想不到的东西——你跳出既定的体系,做出一些在体系内根本无法想象的事情。它超越了训练数据,超越了输入系统的既定模式。它永远都有生存的空间。
吉列尔莫:你有没有注意到,每个 Claude 网站看起来都一样?人们已经习惯了 Claude 网站的样子——衬线字体、棕色和米色、等宽字体,以及特定的间距。久而久之,你会发现很多网站千篇一律,然后你会说:“这毫无创意,简直就是 Claude 出品的垃圾。”
马克斯:说清楚点,我不认为这是人与电脑的对抗——而是人与电脑的结合对抗。但电脑会制造出疯狂的超级刺激;它会制造娱乐。我们在TikTok上看到了这种现象的弱化版。我个人对艺术的定义是:有意义的、超越分布的行为——一些令人惊讶的东西,就像你在Z轴上移动一样。“有意义”意味着它会改变你未来的人生轨迹——你的生活会因为思考和反思而有所不同。
马克斯:我的定义很宽泛。有些军事演习也可以被称作艺术。我们以后会看到到处都是“Move 37”演习。你对艺术的定义是什么?
纳瓦尔:我对艺术有多种定义。我认为艺术是传递情感——将你内心感受到的东西传递给另一个人;你创造一个物体来捕捉你内心的情感。按照这个定义,计算机几乎无法做到这一点:一件没有创作意图的艺术品毫无意义。你可以说大自然也是艺术——比如日落——但那是纯粹的智能在无动机地运作,所以没有自我意识的介入,你的大脑能够识别出这个复杂的系统。而人类意义上的艺术是:有人感受到了某种东西,并希望你也能感受到。所以,创作者的身份至关重要。
马克斯:所以,一张漂亮的照片——如果是人拍摄的,而不是人工智能生成的一模一样的照片,精确到每一个像素,那么拍摄者对你来说就更有意义。
吉列尔莫:你还记得一两年前的ControlNet吗?里面有个中世纪村庄的场景,里面有个漩涡——是人工智能生成的。那是我第一次看到这种效果,觉得特别酷。
海军:但这岂不是自相矛盾吗?是人类设计了训练程序和提示,才得出那个谜题的。人工智能未来或许能做到这一点,但我还是要把功劳归于提出“控制网络”这个光学错觉概念的人。
门槛将会大幅提高——想要让你感到惊喜,需要越来越多的作品。就像吉卜力工作室一样:OpenAI 彻底颠覆了吉卜力工作室的形象。没人想再看到吉卜力工作室的作品了。那种风格已经过时了。
纳瓦尔:没错,但艺术必须超越常规。一旦你到处都能看到吉卜力工作室的作品,它就变得司空见惯——不再令人惊奇,艺术价值也就荡然无存。只有人类才能从现有的数据分布中创造出完全的惊喜,而且他们是有意识地这样做——而意图对于意义至关重要。假设一个人工智能被训练得在形式体系内完美地掌握数学。然后库尔特·哥德尔提出了完全超出体系之外的东西——不完备性定理——打破了它。我认为人工智能无法做到这一点。意义来自于人类出于某种目的而创作,并传达了某种信息。
人工智能能产生新想法吗?
Max:一个真正深刻的问题是:LLM 或 Transformer 是否有可能脱离分布——产生训练集中不存在的新想法?
海军:训练数据集如此庞大,很难想象有什么概念不在其中。但如果它们真的存在,那很可能属于自然领域——物理学、互动、感觉、情感、进化——这些领域不受语言的约束。当然,语言之外仍然存在着许多事物,尽管语言本身就是一种对很多事物的精妙压缩。
马克斯:我认为问题在于如何在不依赖随机性的情况下跳出分布。在强化学习中,你可以从分布中采样一个动作,从而获得随机性,进而探索新的领域。人类能否跳出分布——任何新想法都从何而来?我们是否也依赖于随机性?
海军:我们并非完全依赖于随机性。自然选择的确是通过纯粹的随机性运作的——基因突变,看看会发生什么。但人类似乎能够突破无限的空间,消除大片区域,因此我们的创造力在更大的格局中是有意义的。这是我们独有的能力之一。或许人工智能正在一些边缘领域开始做到这一点,就像我们在一些数学问题上看到的那样——但数学是一个非常有限的领域。目前,真正突破界限、令人惊奇的仍然是人类的领域。人类与人工智能的结合才是未来的发展方向。没有人工智能的人类?别想了;纯粹的人工智能还远未达到那种程度——但人类与人工智能的结合,我们已经进入了那个时代,而且我敢打赌,我们会在这个时代停留的时间比人们想象的要长。
数量众多的小团队
海军:人类将拥有巨大的价值——而且是更高的价值。我们这里的生产力已经大幅提升。基本的经济学原理告诉我们,生产力越高,财富就越多,雇佣的人也就越多,而不是越少。如果有人在人工智能方面非常出色,而且非常聪明、富有创造力,我比以往任何时候都更想雇佣他们,因为这样可以带来巨大的杠杆效应。
吉列尔莫:这是个新要求。我们正在招聘初级员工和资深员工,只要他们擅长与代理商合作并且适应能力强。我的假设是,最终我们会组建更多规模较小的团队。任何特定任务所需的人数都会大幅减少。那些只看到表面影响的人会说:“所有工作都消失了——我只需要两个人就能制造一台喷气式发动机,而不是一千个人;998个工作岗位没了。”
但实际上,这意味着你可以创造出很多不同的喷气式发动机。我们将迎来创业精神的爆发式增长,创始人数量的激增,以及数量庞大的小型团队。
海军:人工智能提供了基础智能和领域知识,并简化了专业术语;现在,智能体赋予了系统更大的自主性。因此,剩下的就是创造力、品味——当然,你需要足够的自主性才能起步并坚持下去,但你无需花费二十年时间学习某一方面才能做出贡献。这一门槛的降低意味着通才们迎来了大好时机。
归根结底,我们都是通才——我们喜欢思考所有事情。马克斯在这里谈论意识、美国食品药品监督管理局(FDA)、脑科学和创造力。那些在推特上喜欢说“专家、资质、来源”的人正在受到伤害,因为如今专业知识的重要性降低了。
你花了五到十年时间攻读博士学位——希望这段时间培养了你的创造力、直觉、品味和判断力,因为如果博士学位仅仅让你记住了术语和框架,人工智能就能轻松绕过这些。它就像一辆加速版的思维自行车。所以,关键在于拥有人工智能的人和没有人工智能的人之间的区别——你能为自己做的最好的事情就是精通这些工具,并始终了解它们的能力范围。而这本身就是一个不断变化的目标。