谷歌和Anthropic对LLM的理解方式不同。

周一，面对日益激烈的竞争，OpenAI 首席执行官 Sam Altman 宣布进入“红色警戒”状态。

最大的威胁来自谷歌；谷歌旗下聊天机器人Gemini的月活跃用户从7月份的4.5亿增长到11月份的6.5亿（ChatGPT在10月份的周活跃用户达到8亿）。与此同时，《华尔街日报》报道称，“OpenAI也面临着来自Anthropic的压力，后者在企业客户中越来越受欢迎。”

两周前，谷歌发布了Gemini 3模型，在多项基准测试中创下新纪录，这无疑加大了对OpenAI的压力。紧接着，Anthropic Games发布了Claude Opus 4.5，并在部分相同的基准测试中取得了更高的分数。

过去两周，我一直在思考如何以最佳方式报道这些新产品。以前，我会对每款新机型进行一系列定制的基准测试，然后撰写评测文章。但最近的机型已经足够优秀，可以轻松解决大多数此类问题。它们在一些简单的任务上仍然存在不足（例如在模拟时钟上显示时间），但我担心这些例子越来越无法代表实际使用情况。

未来，我希望能够更深入地探讨谷歌和Anthropic这两款新模型的性能表现。但就目前而言，我想先对这些模型进行一些定性分析。更确切地说，我想重点介绍两点，它们分别体现了谷歌和Anthropic截然不同的企业文化——正是这些文化差异导致它们在模型构建方面采取了截然不同的方法。

谷歌的卓越工程技术

杰夫·迪恩是一位传奇工程师，自1999年以来一直在谷歌工作，领导了公司内部的多个人工智能项目。（图片来源：THOMAS SAMSON/AFP via Getty Images）

上周，《Semianalysis》通讯发表了一篇深度分析文章，探讨了谷歌的张量处理器单元（TPU）——英伟达GPU的替代方案——所取得的成功。“Gemini 3是世界上最好的模型之一，它完全是在TPU上训练的，”《Semianalysis》的作者写道。值得注意的是，Claude Opus 4.5也是在TPU上训练的。

谷歌十年来一直将TPU用于自身的AI需求。但最近，谷歌开始认真地向其他公司出售TPU。Semianalysis团队认为，谷歌是“英伟达在商用芯片领域最新、最具威胁的挑战者”。

10月份，Anthropic签署了一项协议，将使用多达100万个TPU。据Semianalysis报道，除了从谷歌购买云服务外，“Anthropic还将在其自有设施中部署TPU，这将使谷歌能够直接与英伟达展开竞争。”

近几代的TPU芯片性能尚可，但Semianalysis认为谷歌真正的优势在于其整体系统架构。现代人工智能训练需要数千个芯片连接在一起以实现快速通信。谷歌设计的机架和网络系统能够最大限度地发挥每个芯片的性能。

这是更广泛原则的一个例子：谷歌本质上是一家以工程为导向的公司，它将大型语言模型视为一个工程问题来处理。工程师们努力以尽可能低的成本训练尽可能大的模型。

例如，Gemini 2.5 Flash-Lite 一百万个输入令牌只需 10 美分。Anthropic 最便宜的型号 Claude Haiku 4.5 的价格是它的 10 倍。谷歌也是第一家发布百万令牌上下文窗口 LLM 的公司。

谷歌的工程实力在预训练方面也得到了充分体现。谷歌发布了这张图表，显示 Gemini 3 在 SimpleQA 测试中遥遥领先于其他模型。SimpleQA 是一项基准测试，用于衡量模型回忆晦涩事实的能力。

正如一位眼光敏锐的Reddit评论者所指出的那样，这可能反映了谷歌大规模部署计算硬件的能力。

jakegh 写道：“我的理解是，Gemini 3 Pro 在 SimpleQA 测试中取得的进步表明，它是一个规模庞大的模型，绝对庞大，拥有大量的参数知识。谷歌使用自己的 TPU 硬件不仅进行推理，还进行训练，所以他们有能力做到这一点。”

Gemini 3延续了谷歌打造性能可靠、价格亲民机型的传统。公众对这款新机型的反响普遍积极；该机型在实际应用中的表现似乎与基准测试结果一样出色。

新模型似乎缺乏个性，但这或许无关紧要。数十亿人已经在使用谷歌产品，因此，谷歌或许只需将像 Gemini 3 这样优秀但并非惊艳的模型添加到搜索、Gmail 和 Google Workspace 套件等产品中，就能赢得人工智能竞赛。

人本主义：对模型进行深入思考

哲学家阿曼达·阿斯克尔在最近接受《60分钟》节目采访时，描述了她在人本研究所的工作。

上周发布的 Claude Opus 4.5 也获得了积极的反响，但氛围却有所不同。