XBai o4 – 搞英语 → 看世界

又一个来自中国人工智能实验室的开源（Apache 2.0）法学硕士项目。该模型卡声称：

XBai o4在复杂推理能力上表现出色，目前已在 Medium 模式下全面超越 OpenAI-o3-mini。

这是由 MetaStone AI 发布的 328 亿参数模型，MetaStone AI 是一家新实验室，他们于 3 月份发布了第一个模型 – MetaStone-L1-7B ，随后在 7 月份发布了 MetaStone-S1 1.5B 、 7B和32B ，现在在 8 月份发布了 XBai o4。

MetaStone-S1 模型附带一篇论文，使用反射生成模型进行测试时间缩放。

关于 MetaStone AI 的英文网站信息非常少。他们的论文显示与中国科学技术大学（合肥）有合作关系。他们的一位研究人员在推特上证实，他们的 CEO 来自快手，这让我找到了去年 7 月的一篇关于李岩的中文文章，李岩曾是快手员工，现在是文小白的创始人，显然现在是 MetaStone 的 CEO。www.wenxiaobai.com 被列为 GitHub 上XBai-o4 README链接的“官方网站”。

Ivan Fioravanti让它在 MLX 下以 4 位、5 位、6 位、8 位和 4 位 DWQ 尺寸运行。我在 LM Studio 中尝试了他的6 位版本（下载量为 24.81GB），并让它“生成一只骑自行车的鹈鹕的 SVG”。它思考了 39.49 秒（思考轨迹见此处），给出了如下结果：

鹈鹕是蓝色的，看起来有点像一头悲伤的大象。自行车看起来更像一辆平板摩托车。鹈鹕有蓝色的尾巴和橙色的腿。

我还有个“编写一个HTML和JavaScript页面来实现太空入侵者”的任务，你可以在这里试试。它不太好——入侵者不会发射子弹（它把这一点列为“潜在的改进”），而且由于时间问题，我觉得它不可能赢，但它仍然是我收藏中一个有趣的补充。

LM Studio 报告的恒定内存使用量为 25.54GB，根据活动监视器，使用了 87.5% 的 GPU 和大约 39% 的 CPU 核心。

它在思考轨迹中做了大量工作——耗时 10 分 35 秒！——包括编写最终成果中大部分代码的初稿。以下是摘录：

让我想想变量：

let enemyDirection = 1; // 1 for right, -1 for left

在游戏循环中： enemies.forEach(enemy => {> enemy.x += enemyDirection * enemy.dx;> });然后检查是否有敌人超出范围。如果是，则反转方向并将所有敌人向下移动。

但是如何检查边缘是否有敌人？

也许找到所有敌人的最大 x 并看看它是否超过canvas.width - enemy.width 。

或者，追踪敌人最左边和最右边的位置。可能有点复杂。

为了简单起见，也许检查任何敌人的x + width > canvas.width or x < 0 。

以下是完整的记录。

我最初的印象是，对于这款在我自己的笔记本电脑上运行的型号，我并不像Qwen3-Coder-30B-A3B-Instruct或GLM-4.5 Air那样印象深刻。

但是……另一个中国人工智能实验室已经能够制作出具有竞争力的模型，这一次的关注度远不及 Qwen、Moonshot AI 和 Z.ai 那么高，这有多么了不起。

通过@ivanfioravanti

标签：人工智能、生成人工智能、 LLMS 、 MLX 、鹈鹕骑自行车、 LLM推理、 LLM发布、 LM工作室、人工智能在中国、太空侵略者

原文： https://simonwillison.net/2025/Aug/3/xbai-o4/#atom-everything