超过十亿人定期使用人工智能聊天机器人。ChatGPT 每周用户超过 7 亿。Gemini 和其他领先的人工智能又增加了数亿用户。在我的文章中,我经常关注人工智能正在取得的进步(例如,在过去几周,OpenAI 和谷歌的人工智能聊天机器人都在国际数学奥林匹克竞赛中获得了金牌),但这掩盖了一个正在形成的更广泛的转变:我们正在进入一个大众智能时代,强大的人工智能正变得像谷歌搜索一样触手可及。
直到最近,这些系统的免费用户(绝大多数)只能使用较老、规模较小的人工智能模型,这些模型经常出错,在复杂工作中的用途有限。而像推理机这样能够解决非常棘手的问题、幻觉出现频率低得多的优秀模型,则需要每月支付 20 到 200 美元。即便如此,你也需要知道选择哪种模型以及如何正确地引导它。但经济和界面正在迅速变化,这将对我们所有人的工作、学习和思考方式产生相当大的影响。
强大的人工智能越来越便宜,越来越容易获得
对于大多数用户来说,访问强大的人工智能存在两大障碍。首先是困惑。很少有人知道如何选择人工智能模型。更少有人知道,在 ChatGPT 的菜单中选择 o3 就能访问优秀的 Reasoner 人工智能模型,而选择 4o(这个数字似乎更高)则会得到性能远不如的模型。根据 OpenAI 的数据,只有不到 7% 的付费用户会定期选择 o3,这意味着即使是高级用户也错过了 Reasoner 的功能。
另一个因素是成本。由于最佳模型价格昂贵,免费用户通常无法访问这些模型,或者访问权限非常有限。谷歌率先免费开放了部分最佳模型的使用权限,但 OpenAI 表示,在 GPT-5 发布之前,几乎没有免费用户能够定期访问推理模型。
GPT-5 原本旨在解决这两个问题,这也是它首次亮相时如此混乱和令人困惑的部分原因。GPT-5 实际上包含两个概念。它是一系列截然不同的模型的总称,从性能较弱的 GPT-5 Nano 到性能强大的 GPT-5 Pro。它也是用于选择使用哪种模型以及 AI 应该使用多少计算能力来解决你的问题的工具的名称。当你向“GPT-5”写入数据时,你实际上是在与一个路由器对话,该路由器会自动判断你的问题是可以用更小、更快的模型来解决,还是需要使用更强大的推理器。
当您选择 ChatGPT 5 时,实际上是选择了自动模式,它会在各种 ChatGPT 5 模型中进行选择,其中一些模型是世界上最好的模型之一,而另一些则要弱得多。如果您付费访问,除了简单的聊天之外,几乎任何问题都可以选择“GPT-5 思维”。
你可以看到这原本是如何将强大的人工智能扩展到更多用户的:如果你只是想聊天,GPT-5 应该使用其较弱的专门聊天模型;如果你试图解决数学问题,GPT-5 应该将你发送到其速度较慢、更昂贵的 GPT-5 思维模型。这将节省资金并让更多人能够使用最好的人工智能。但推出时存在问题。这种做法没有得到很好的解释,路由器一开始也运行不佳。结果是,一个使用 GPT-5 的人得到了非常聪明的答案,而另一个人得到了一个糟糕的答案。尽管存在这些问题,OpenAI 还是报告了早期的成功。在推出后的几天内,使用推理机的付费客户比例从 7% 上升到 24%,使用最强大模型的免费客户数量从几乎为零上升到 7%。
这种变化的部分原因是,更智能的模型运行效率显著提升。这张图表展示了这一趋势的快速发展,y 轴表示人工智能的能力,x 轴表示成本呈对数递减。GPT-4 发布时,使用一百万个代币(一个代币大致代表一个单词)的成本约为 50 美元,而现在,使用 GPT-5 nano(一个比原版 GPT-4 功能更强大的模型)的成本约为每百万个代币 14 美分。
研究生水平的 Google-Proof 问答测试 (GPQA) 是一系列非常难的多项选择题,旨在测试高级知识。能够访问互联网的非专业人士答对率为 34%,而能够访问互联网的博士在其专业领域答对率为 74-81%。每百万代币的成本即为使用该模型的成本。(这些数据是我收集的,如有错误,敬请谅解。)
这种效率的提高不仅仅是经济的,也是环境的。 谷歌报告称,仅在去年一年,每个提示的能源效率就提高了 33 倍。从独立测试和官方公告来看,2025 年现代 LLM 标准提示所使用的边际能量在这一点上已经相对确定。它大约为 0.0003 千瓦时,与 8-10 秒的 Netflix 流媒体或 2008 年的谷歌搜索相同的能耗(有趣的是,图像创建似乎使用与文本提示类似的能耗) 1 。这些模型每个提示使用多少水尚不清楚,但范围从几滴到五分之一的酒杯(0.25 毫升到 5 毫升以上),具体取决于用水量的定义(这里是低水参数和高水参数)。
这些改进意味着,即使人工智能变得更加强大,它也能够惠及更多人。服务每个新增用户的边际成本大幅下降,这意味着更多商业模式(例如广告支持)将成为可能。免费用户现在可以运行两年前还需花费数美元的提示。这就是十亿人突然能够使用强大人工智能的原因:并非通过某种宏大的民主化举措,而是因为经济因素最终使其成为可能。
强大的人工智能正在变得易于使用
仅仅拥有强大的人工智能是不够的,人们需要真正使用它来完成任务。运用好人工智能曾经是一个相当具有挑战性的过程,它需要运用诸如思维链之类的技巧来设计提示,同时还要学习各种技巧和窍门,以最大限度地发挥人工智能的潜力。然而,在最近的一系列实验中,我们发现这些技巧已经不再那么有用了。强大的人工智能模型只是越来越擅长执行你的指令,甚至能够理解你的需求,并超越你的要求(当然,威胁它们或善待它们似乎通常都没有什么帮助)。
不仅仅是文本模型正在变得更便宜、更易于使用。谷歌发布了一款新的图像模型,代号为“纳米香蕉”,官方名称则更枯燥乏味,叫做“Gemini 2.5 Flash 图像生成器”。它不仅性能出色(虽然更擅长编辑图像而非创建新图像),而且价格低廉,免费用户也能轻松使用。而且,与前几代 AI 图像生成器不同,它能够很好地遵循简明易懂的指令。
为了展示其强大功能和易用性,我上传了一张阿波罗 11 号宇航员的标志性(无版权)图像和一张闪亮燕尾服的随机图片,并给了它最简单的提示:“让左边的尼尔·阿姆斯特朗穿上这件燕尾服”
几秒钟后它给我的结果如下:
虽然有些问题专家也能发现,但看到燕尾服逼真的褶皱以及它如何融入场景(翻领上的 NASA 徽章非常漂亮)仍然令人印象深刻。AI 图像编辑过程中仍然存在很多随机性,这使得它不适用于许多专业应用,但对大多数人来说,这不仅代表着他们能力的飞跃,也代表着操作的便捷性。
我们还可以更进一步:“现在展示一张照片,照片中尼尔·阿姆斯特朗和巴兹·奥尔德林穿着同样的服装,坐在一架现代飞机的座位上,尼尔看起来很放松,向后靠着,吹着小号,巴兹看起来很紧张,手里拿着一个汉堡包,中间座位上有一只逼真的水獭坐在座位上使用笔记本电脑。 ”
这意义非凡:AI 的输出相当令人印象深刻(看看它的表情,以及它是如何保留巴斯光年戒指和尼尔翻领别针的)。AI 扭曲了历史上一个著名的时刻。同时也是一个潜在的警示,当这类技术被广泛应用时,事情将会变得多么诡异。
大众智能的怪异之处
当强大的人工智能掌握在十亿人手中时,很多事情将会同时发生。很多事情已经同时发生了。
有些人与人工智能模型关系密切,而另一些人则被人工智能模型从孤独中拯救出来。人工智能模型可能导致一些人精神崩溃和出现危险行为,而另一些人则被用于诊断疾病。它被用来撰写讣告、编撰经文、作弊、创业,以及成千上万种意想不到的用途。随着人工智能系统变得越来越强大,这些用途以及由此带来的问题和益处很可能只会成倍增加。
虽然谷歌的人工智能图像生成器有限制滥用的护栏,以及用于识别人工智能图像的隐形水印,但我预计在未来几个月内,限制更少的人工智能图像生成器的质量可能会接近纳米香蕉。
人工智能公司(无论你是否相信他们对安全的承诺)似乎和我们其他人一样无法接受这一切。当十亿人都能使用先进的人工智能时,我们就进入了所谓的“大众智能”时代。我们现有的每一个机构——学校、医院、法院、公司、政府——都是为一个智能稀缺且昂贵的世界而建立的。现在,每个行业、每个机构、每个社区都必须弄清楚如何利用大众智能蓬勃发展。我们如何驾驭十亿人使用人工智能,同时管理随之而来的混乱?当任何人都可以伪造任何东西时,我们如何重建信任?我们如何在实现知识获取民主化的同时,保留人类专业知识的宝贵价值?
我们现在就在这里。强大的人工智能价格低廉,可以免费使用;操作简单,无需手册;并且能力足以在一系列智力任务上超越人类。大量的机遇和问题即将在世界各地的教室、法庭和会议室中涌现。大众智能时代,就是让十亿人拥有一套前所未有的工具,并观察他们如何使用它。我们即将见证这一切。
这是回答标准问题所需的能量。它没有考虑训练人工智能模型所需的能量,因为训练模型是一个一次性的过程,非常耗能。我们不知道创建一个现代模型需要耗费多少能源,但据估计,训练 GPT-4 耗电量略高于 50 万千瓦时,相当于一架波音 737 飞机飞行 18 小时的耗电量。