又一个来自中国人工智能实验室的开源(Apache 2.0)法学硕士项目。该模型卡声称:
XBai o4在复杂推理能力上表现出色,目前已在 Medium 模式下全面超越 OpenAI-o3-mini。
这是由 MetaStone AI 发布的 328 亿参数模型,MetaStone AI 是一家新实验室,他们于 3 月份发布了第一个模型 – MetaStone-L1-7B ,随后在 7 月份发布了 MetaStone-S1 1.5B 、 7B和32B ,现在在 8 月份发布了 XBai o4。
MetaStone-S1 模型附带一篇论文,使用反射生成模型进行测试时间缩放。
关于 MetaStone AI 的英文网站信息非常少。他们的论文显示与中国科学技术大学(合肥)有合作关系。他们的一位研究人员在推特上证实,他们的 CEO 来自快手,这让我找到了去年 7 月的一篇关于李岩的中文文章,李岩曾是快手员工,现在是文小白的创始人,显然现在是 MetaStone 的 CEO。www.wenxiaobai.com 被列为 GitHub 上XBai-o4 README链接的“官方网站”。
Ivan Fioravanti让它在 MLX 下以 4 位、5 位、6 位、8 位和 4 位 DWQ 尺寸运行。我在 LM Studio 中尝试了他的6 位版本(下载量为 24.81GB),并让它“生成一只骑自行车的鹈鹕的 SVG”。它思考了 39.49 秒(思考轨迹见此处),给出了如下结果:
我还有个“编写一个HTML和JavaScript页面来实现太空入侵者”的任务,你可以在这里试试。它不太好——入侵者不会发射子弹(它把这一点列为“潜在的改进”),而且由于时间问题,我觉得它不可能赢,但它仍然是我收藏中一个有趣的补充。
LM Studio 报告的恒定内存使用量为 25.54GB,根据活动监视器,使用了 87.5% 的 GPU 和大约 39% 的 CPU 核心。
它在思考轨迹中做了大量工作——耗时 10 分 35 秒!——包括编写最终成果中大部分代码的初稿。以下是摘录:
让我想想变量:
let enemyDirection = 1; // 1 for right, -1 for left
在游戏循环中:
enemies.forEach(enemy => {> enemy.x += enemyDirection * enemy.dx;> });
然后检查是否有敌人超出范围。如果是,则反转方向并将所有敌人向下移动。但是如何检查边缘是否有敌人?
也许找到所有敌人的最大 x 并看看它是否超过
canvas.width - enemy.width
。或者,追踪敌人最左边和最右边的位置。可能有点复杂。
为了简单起见,也许检查任何敌人的
x + width > canvas.width or x < 0
。
以下是完整的记录。
我最初的印象是,对于这款在我自己的笔记本电脑上运行的型号,我并不像Qwen3-Coder-30B-A3B-Instruct或GLM-4.5 Air那样印象深刻。
但是……另一个中国人工智能实验室已经能够制作出具有竞争力的模型,这一次的关注度远不及 Qwen、Moonshot AI 和 Z.ai 那么高,这有多么了不起。
标签:人工智能、生成人工智能、 LLMS 、 MLX 、鹈鹕骑自行车、 LLM推理、 LLM发布、 LM工作室、人工智能在中国、太空侵略者
原文: https://simonwillison.net/2025/Aug/3/xbai-o4/#atom-everything