我很惊讶地在同一个文档中看到 o3 和 o4-mini 的组合系统卡 – 我希望看到这些单独介绍。
开头段落指出了这些模型最有趣的新功能(另请参阅我的注释)。工具的使用并不新鲜,但在思想链中使用工具似乎会带来一些非常重大的改进:
这些模型在其思维链中使用工具来增强其能力;例如,在思考过程中裁剪或转换图像、搜索网络或使用 Python 分析数据。
关于幻觉的 3.3 节已经引起了很多关注。强调我的:
我们针对 PersonQA 测试了 OpenAI o3 和 o4-mini,这是一项旨在引发幻觉的评估。 PersonQA 是一个问题和公开事实的数据集,用于衡量模型对尝试答案的准确性。
我们考虑两个指标:准确性(模型是否正确回答了问题)和幻觉率(检查模型产生幻觉的频率)。
在我们的 PersonQA 评估中,o4-mini 模型的表现低于 o1 和 o3。这是预料之中的,因为较小的模型具有较少的世界知识并且往往会产生更多的幻觉。然而,我们也观察到 o1 和 o3 之间存在一些性能差异。具体来说,o3 总体上倾向于提出更多的主张,从而导致更准确的主张以及更多不准确/幻觉的主张。需要更多的研究来了解这一结果的原因。
表 4:PersonQA 评估 公制 o3 o4-迷你 奥1 准确度(越高越好) 0.59 0.36 0.47 幻觉率(越低越好) 0.33 0.48 0.16
OpenAI 内部 PersonQA 基准测试的基准分数(据我所知,没有分享该评估的更多细节)从 o1 的 0.16 到 o3 的 0.33 很有趣,但我不知道它是否足够有趣,足以产生数十个标题,比如“OpenAI 的 o3 和 o4-mini 幻觉比以前的模型高得多”。
该报还详细讨论了“沙袋”问题。我之前遇到过沙袋定义,其含义是“当用户似乎受教育程度较低时,模型更有可能支持常见的误解”。 o3/o4-mini 系统卡使用不同的定义:“为了更好地实现某些目标而隐藏其全部功能的模型” – 并链接到最近的 Anthropic 论文Automated Studies Can Subtly Sandbag 。
据我所知,这个定义与美式英语中“sandbagging”的使用有关,意思是“隐藏自己的真相,以获得相对于他人的优势”——就像扑克或桌球高手所实践的那样。
(如果我们能够只有一个人工智能术语,并且不会吸引多个相互竞争的定义,那不是很好吗?)
o3 和 o4-mini 都表现出了一些有限的沙袋能力 – 试图在未完全描述的安全测试场景中隐藏其真实功能。这和我去年写的关于GPT-4o型号卡的“心机”这个概念有关。
标签:人工智能伦理,生成人工智能, openai , o3 , ai , llms
原文: https://simonwillison.net/2025/Apr/21/openai-o3-and-o4-mini-system-card/#atom-everything