Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

中国“登月计划”推出免费 AI 模型 Kimi K2,关键基准测试结果超越 GPT-4

Posted on 2025-07-15

ai_64.png

中国人工智能初创公司 Moonshot AI 发布了 Kimi K2,这是一个拥有万亿参数的开源语言模型,其在关键基准测试中超越 GPT-4,在编码和自主代理任务方面尤其表现出色。VentureBeat 报道:新模型 Kimi K2 拥有 1 万亿个参数,其中 320 亿个激活参数,采用混合专家架构。该公司发布了两个版本:一个面向研究人员和开发人员的基础模型,以及一个针对聊天和自主代理应用程序优化的指令调整版本。“Kimi K2 不仅仅是回答问题;它还能行动,”该公司在其公告博客中表示。“有了 Kimi K2,先进的代理智能比以往任何时候都更加开放和易于访问。我们迫不及待地想看到您构建的成果。”该模型的突出特点是其针对“代理”功能的优化——能够自主使用工具、编写和执行代码,并在无需人工干预的情况下完成复杂的多步骤任务。在基准测试中,Kimi K2 在 SWE-bench Verified(一项极具挑战性的软件工程基准)上的准确率达到了 65.8%,超越了大多数开源替代方案,并与一些专有模型相媲美。[…] 在 LiveCodeBench(可以说是目前最真实的编码基准)上,Kimi K2 的准确率达到了 53.7%,遥遥领先于 DeepSeek-V3 的 46.9% 和 GPT-4.1 的 44.7%。更引人注目的是:它在 MATH-500 上的得分为 97.4%,而 GPT-4.1 为 92.4%,这表明 Moonshot 已经破解了数学推理的一些基本问题,而规模更大、资金更雄厚的竞争对手却未能做到这一点。但基准测试未能捕捉到的是:Moonshot 取得这些成果所使用的模型成本仅为现有企业在训练和推理上花费的一小部分。OpenAI 为了实现渐进式改进而在计算上投入了数亿美元,而 Moonshot 似乎找到了一条更有效的途径来实现同样的目标。这是典型的创新者困境的实时演绎——斗志昂扬的局外人不仅要匹敌现任者的表现,而且他们做得更好、更快、更便宜。

twitter_icon_large.png facebook_icon_large.png

在 Slashdot 上阅读更多内容。

原文: https://developers.slashdot.org/story/25/07/14/1942209/chinas-moonshot-launches-free-ai-model-kimi-k2-that-outperforms-gpt-4-in-key-benchmarks?utm_source=rss1.0mainlinkanon&utm_medium=feed

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme