七月是国际数学奥林匹克( OpenAI 、 Gemini ),今天是国际大学生程序设计竞赛(ICPC) 。OpenAI 和 Gemini 再次派出模型角逐金牌。
OpenAI 的Mostafa Rohaninejad :
我们收到的问题都以完全相同的 PDF 格式呈现,推理系统无需任何定制的测试时间工具即可自动选择提交的答案。在 12 道题中,有 11 道题,系统第一次提交就正确。对于最难的一道题,系统在第九次提交时就成功了。值得注意的是,最优秀的人类团队在 12 道题中也成功了 11 道。
我们采用了一组通用推理模型进行比赛;我们没有专门为 ICPC 训练任何模型。我们同时使用了 GPT-5 和一个实验推理模型来生成解决方案,并由实验推理模型选择提交哪些解决方案。GPT-5 正确回答了 11 个问题,最后一个(也是最难的一个)问题由实验推理模型解决了。
以下是 Google DeepMind 的 Hanzhao (Maggie) Lin 和 Heng-Tze Cheng 的博客文章:
在比赛组织者的指导下,Gemini 2.5 Deep Think 的高级版本在遵循ICPC 规则的远程在线环境中进行了现场比赛。比赛比人类选手晚开始 10 分钟,并在同样 5 小时的时间限制内正确解答了 12 道题中的 10 道,达到了金牌水平。点击此处查看我们的解决方案。
我仍在尝试确认这些模型是否可以使用工具来执行它们编写的代码。7 月份的 IMO 成绩都是在没有工具的情况下取得的。
标签: gemini 、 llm-reasoning 、 google 、 generative-ai 、 openai 、 ai 、 llms
原文: https://simonwillison.net/2025/Sep/17/icpc/#atom-everything