Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

XBai o4

Posted on 2025-08-04

XBai o4

又一个来自中国人工智能实验室的开源(Apache 2.0)法学硕士项目。该模型卡声称:

XBai o4在复杂推理能力上表现出色,目前已在 Medium 模式下全面超越 OpenAI-o3-mini。

这是由 MetaStone AI 发布的 328 亿参数模型,MetaStone AI 是一家新实验室,他们于 3 月份发布了第一个模型 – MetaStone-L1-7B ,随后在 7 月份发布了 MetaStone-S1 1.5B 、 7B和32B ,现在在 8 月份发布了 XBai o4。

MetaStone-S1 模型附带一篇论文,使用反射生成模型进行测试时间缩放。

关于 MetaStone AI 的英文网站信息非常少。他们的论文显示与中国科学技术大学(合肥)有合作关系。他们的一位研究人员在推特上证实,他们的 CEO 来自快手,这让我找到了去年 7 月的一篇关于李岩的中文文章,李岩曾是快手员工,现在是文小白的创始人,显然现在是 MetaStone 的 CEO。www.wenxiaobai.com 被列为 GitHub 上XBai-o4 README链接的“官方网站”。

Ivan Fioravanti让它在 MLX 下以 4 位、5 位、6 位、8 位和 4 位 DWQ 尺寸运行。我在 LM Studio 中尝试了他的6 位版本(下载量为 24.81GB),并让它“生成一只骑自行车的鹈鹕的 SVG”。它思考了 39.49 秒(思考轨迹见此处),给出了如下结果:

鹈鹕是蓝色的,看起来有点像一头悲伤的大象。自行车看起来更像一辆平板摩托车。鹈鹕有蓝色的尾巴和橙色的腿。

我还有个“编写一个HTML和JavaScript页面来实现太空入侵者”的任务,你可以在这里试试。它不太好——入侵者不会发射子弹(它把这一点列为“潜在的改进”),而且由于时间问题,我觉得它不可能赢,但它仍然是我收藏中一个有趣的补充。

LM Studio 报告的恒定内存使用量为 25.54GB,根据活动监视器,使用了 87.5% 的 GPU 和大约 39% 的 CPU 核心。

它在思考轨迹中做了大量工作——耗时 10 分 35 秒!——包括编写最终成果中大部分代码的初稿。以下是摘录:

让我想想变量:

let enemyDirection = 1; // 1 for right, -1 for left

在游戏循环中: enemies.forEach(enemy => {> enemy.x += enemyDirection * enemy.dx;> });然后检查是否有敌人超出范围。如果是,则反转方向并将所有敌人向下移动。

但是如何检查边缘是否有敌人?

也许找到所有敌人的最大 x 并看看它是否超过canvas.width - enemy.width 。

或者,追踪敌人最左边和最右边的位置。可能有点复杂。

为了简单起见,也许检查任何敌人的x + width > canvas.width or x < 0 。

以下是完整的记录。

我最初的印象是,对于这款在我自己的笔记本电脑上运行的型号,我并不像Qwen3-Coder-30B-A3B-Instruct或GLM-4.5 Air那样印象深刻。

但是……另一个中国人工智能实验室已经能够制作出具有竞争力的模型,这一次的关注度远不及 Qwen、Moonshot AI 和 Z.ai 那么高,这有多么了不起。

通过@ivanfioravanti

标签:人工智能、生成人工智能、 LLMS 、 MLX 、鹈鹕骑自行车、 LLM推理、 LLM发布、 LM工作室、人工智能在中国、太空侵略者

原文: https://simonwillison.net/2025/Aug/3/xbai-o4/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Bits about Money
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • Henrique Dias
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme