中国人工智能初创公司 Moonshot AI 发布了 Kimi K2,这是一个拥有万亿参数的开源语言模型,其在关键基准测试中超越 GPT-4,在编码和自主代理任务方面尤其表现出色。VentureBeat 报道:新模型 Kimi K2 拥有 1 万亿个参数,其中 320 亿个激活参数,采用混合专家架构。该公司发布了两个版本:一个面向研究人员和开发人员的基础模型,以及一个针对聊天和自主代理应用程序优化的指令调整版本。“Kimi K2 不仅仅是回答问题;它还能行动,”该公司在其公告博客中表示。“有了 Kimi K2,先进的代理智能比以往任何时候都更加开放和易于访问。我们迫不及待地想看到您构建的成果。”该模型的突出特点是其针对“代理”功能的优化——能够自主使用工具、编写和执行代码,并在无需人工干预的情况下完成复杂的多步骤任务。在基准测试中,Kimi K2 在 SWE-bench Verified(一项极具挑战性的软件工程基准)上的准确率达到了 65.8%,超越了大多数开源替代方案,并与一些专有模型相媲美。[…] 在 LiveCodeBench(可以说是目前最真实的编码基准)上,Kimi K2 的准确率达到了 53.7%,遥遥领先于 DeepSeek-V3 的 46.9% 和 GPT-4.1 的 44.7%。更引人注目的是:它在 MATH-500 上的得分为 97.4%,而 GPT-4.1 为 92.4%,这表明 Moonshot 已经破解了数学推理的一些基本问题,而规模更大、资金更雄厚的竞争对手却未能做到这一点。但基准测试未能捕捉到的是:Moonshot 取得这些成果所使用的模型成本仅为现有企业在训练和推理上花费的一小部分。OpenAI 为了实现渐进式改进而在计算上投入了数亿美元,而 Moonshot 似乎找到了一条更有效的途径来实现同样的目标。这是典型的创新者困境的实时演绎——斗志昂扬的局外人不仅要匹敌现任者的表现,而且他们做得更好、更快、更便宜。
在 Slashdot 上阅读更多内容。