我有幸提前体验了 GPT- 5.5¹ ，我认为这意义非凡。它意义非凡的原因在于，它表明人工智能的快速发展仍在继续。它意义非凡的原因还在于，它本身就非常出色。而且，即便如此，人工智能能力的边界仍然崎岖不平，这更凸显了它的意义所在。

随着人工智能技术的进步，要快速展现每一代人工智能的演变变得越来越困难，因为人工智能过去不擅长的许多事情，例如数学运算或单词字母计数，现在对它来说都轻而易举。因此，我会详细解释其中的复杂之处，但首先，我想举一个我认为很贴切的例子。人工智能模型最擅长的是编程，所以我给各种人工智能模型都出了个编程挑战，从OpenAI的第一个推理模型o3（一年零一周前发布！）到目前最好的开源权重模型（Kimi K2.6），再到最新的GPT-5.5 Pro：“请为我构建一个程序生成的3D模拟模型，展示一个港口城镇从公元前3000年到公元3000年的演变过程，它应该美观，并且允许我对其进行一些控制。”

然后我把所有答案都发布到这个图库里，方便大家体验（实际上，这个图库页面是 GPT-5.5 Codex 帮我建的）。你应该亲自尝试一下，感受一下其中的区别，不过下面你可以先看看几个例子。除了在其他所有方面都表现更佳之外，只有 GPT-5.5 Pro 真正模拟了一个不断演变的城镇，而不仅仅是随着时间的推移生成新的建筑。GPT-5.5 Pro 的速度也比之前的版本快得多：GPT-5.4 Pro 完成这项任务需要 33 分钟，而 GPT-5.5 Pro 只用了 20 分钟。

模型、应用和工具

我一直鼓励大家不要把人工智能看作一个单一的概念，而应该把它看作是由三个相互关联的概念组成的集合。首先是模型，例如 Opus 4.7、Gemini 3.1 或（现在的）GPT-5.5。其次是应用程序，也就是你实际用来与模型交互的产品，它们让模型为你完成实际工作。最常见的应用程序是每个模型的网站：chatgpt.com、claude.ai 和 gemini.google.com。但是，像 Claude Code、Claude Cowork 和 OpenAI Codex 这样的桌面应用程序正日益成为最有用的人工智能应用程序。最后是工具，也就是人工智能可以使用的工具以及人工智能模型与这些工具的连接方式。工具使人工智能能够控制你的电脑、编写代码、进行研究和生成图像。

OpenAI 在所有三个领域都取得了进展。在模型方面，GPT-5.5 是一个强大的模型系列，其中 GPT-5.5 Pro（仅可通过网站访问）最为出色。应用程序方面最近也取得了重大进展，OpenAI 的 Codex 越来越像优秀的 Claude Code，并逐渐发展成为一款易于使用且实用的桌面应用程序。最后，还有框架及其使用的工具。框架方面有很多新的改进，其中最引人注目的是 OpenAI 推出的全新图像模型。

这个新模型现在可以渲染高质量文本，并生成几乎任何你能描述的图片。老读者应该知道我的“水獭测试” ，它要求人工智能利用 Wi-Fi 生成一张水獭在飞机上的图片。与其再次描述，不如让这个新的图像模型（有时被称为 GPT-imagegen-2）来解释一下：“一张照片，一位水獭科学家正在展示 Ethan Mollick 的水獭测试结果，该测试展示了人工智能图像生成器如何利用 Wi-Fi 生成水獭坐在飞机上的图片。”

或许你想看看相关的学术论文？“请给我看看关于奥特测试的学术论文的第一页，格式要规范，放在桌子上。”（你可以放大文本查看）

或许我们应该把它变成艺术？“现在展示一个精心布置的艺术画廊，墙上的每一幅画都是一只水獭在飞机上用笔记本电脑，风格模仿克里姆特、罗斯科、马蒂斯、莫奈、毕加索、提香、伦勃朗和奥基夫。每幅画下面都应该有清晰易读的标签。”（这一点值得放大观察）

这一切都很酷，几个月前还根本不可能，而且也非常实用。一个能够生成精细文本和图像的图像生成器可以用来制作 PowerPoint 幻灯片、产品模型、示例网站，或者任何你需要的东西。但这只是众多工具之一，真正的魔力在于将各种工具、应用程序和模型结合起来，解决实际问题。而这正是我拖延了十年才着手解决的问题。

将它们整合在一起

我是一名学者，我的许多非人工智能相关工作，尤其是在2010年代初期，都集中在众筹领域。我收集了数百个关于众筹主题的匿名数据文件，这些数据来自调查、分析和研究工作，格式包括STATA、CSV、XLS和Word文档，但我一直没能就此撰写论文。我想看看GPT-5.5能处理这些信息到什么程度。于是，我使用了由GPT-5.5驱动的Codex，并发出指令：“帮我整理[数据]，生成一个可能有趣的新假设，并用复杂的方法进行验证，最后撰写一篇学术论文。”我还要求它添加文献综述并进行格式调整。结果非常令人印象深刻，尤其是在我让GPT-5.5 Pro对论文进行评论并将评论结果反馈给Codex之后。您可以在这里阅读结果。虽然它并不完美，但这并非因为存在明显的错误：文献综述和统计数据都是真实的。相反，作为一名专家，我认为这个假设并不那么有趣，而且存在一些关于因果关系的常见问题，尽管人工智能使用了非常复杂的统计方法试图解决这些问题。简而言之，如果这篇论文是博士二年级项目的成果，我会非常高兴。而我只是给了它四个提示，自己根本没动过文本。

我们还可以通过另一种方式将工具、应用程序和模型整合在一起。我让 Codex 创建一个全新的桌面角色扮演游戏，基本上是它自己创造的奇幻世界中的《龙与地下城》版本，其中包含了所有游戏所需的表格和规则。我还要求它模拟玩家的游戏体验，并根据体验结果修改规则。正如你所看到的，人工智能出色地完成了任务，包括设计了一份精美的 101 页 PDF 文件，并使用其图像生成器绘制了插图。

除了技术上的精湛之外，这部作品的内容也颇具亮点。故事背景新颖有趣，规则也合情合理，既借鉴了现有的游戏模式，又加入了独特的元素。然而，仔细审视之下，我们也会发现人工智能能力的局限性依然存在。每一代人工智能模型在构建长篇小说方面都面临着挑战。如果你经常阅读人工智能相关的作品，你会发现这里也存在同样的问题：对怪诞元素的偏爱；过于复杂却未能充分展开的构思；怪异的比喻（例如“天气和建筑是同一论点的不同速度”）；冗长的句子（例如“当大海忘记它曾经是一条道路时，神圣之物浮现出来”这句话偶尔听起来不错，但整本书都是这样就让人感到疲惫）；对话中所有角色都使用相同的生硬语气；以及“玛拉”这个名字。因此，即便在技术上取得了惊人的进步，这部作品仍然存在一些不足之处。

GPT-5.5 向我们展示了模型不断变得更智能，应用程序不断变得更强大，工具也不断改进，从而使它们在解决实际问题方面越来越有效。我可以用四个提示生成一篇接近博士水平的论文，或者用一个提示生成一个可玩的角色扮演游戏，并配上插图，经过“试玩”。但即便统计数据可靠，虚构的故事仍然显得平淡，假设有时也缺乏吸引力。不过，即便如此，一年前这一切都还远未实现，而随着最新版本的发布，能力提升似乎正在加速。

GPT-5.5 显然并非这一过程的终点，但它是沿途值得关注的一步。我撰写这份简报已经三年多了，模式始终未变：每隔几个月就会发布一个新模型。我进行测试，曾经不可能的事情变得轻而易举，而且每次新版本发布，进步的幅度都在不断增大。挑战依然存在，只是比以往任何时候都更加遥远。

立即订阅

我没有从 OpenAI 或任何其他人工智能实验室获得任何资金，OpenAI 也事先没有看到这篇文章。此外，在我撰写本文时，我对发布会的全部细节并不了解，因此如有任何错误，敬请谅解。

原文： https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55