更新！ – 搞英语 → 看世界

t=eyJpbWciOiJodHRwczpcL1wvc2NvdHRhYXJvb

(1) 我 8 岁的儿子上周问我：“爸爸，你听说 GPT-5 发布了吗？” 是的，我确实知道 GPT-5 发布了！我刚刚开始摆弄它。有关变化以及与以前的模型相比它有多令人印象深刻的详细报告，例如请参阅 Zvi #1 、 #2 、 #3 。简而言之，看起来幻觉和谄媚现象大幅减少，编码和其他任务的实际实用性也有所提高，尽管“原始智能”不太可能打败已经熟悉 o3 和 Opus 4 其他最先进模型的人，就像 ChatGPT 和随后的 GPT-4 打败了那些在 2022 年末和 2023 年初不知道会发生什么的人一样。您看到的结果有多令人印象深刻，部分取决于您的查询被路由到哪个GPT-5 模型，而您无法完全控制这一点。无论如何，对于那些声称 AGI 进展正在放缓的人来说，这是一个很好的消息，但对于那些声称在后 ChatGPT 时代，AGI 的进展将基本按照预期继续的人来说，这也是一个好消息！

(2) 另一则迟来的消息是，OpenAI 和 DeepMind（以及随后的其他公司）宣布，他们在国际数学奥林匹克竞赛中取得了金牌，解决了 6 道题中的 5 道（其中一道题是第 6 道，也是最难的一道题，所有 AI 都难以应对）。最重要的是，这意味着我从我的朋友、纽约大学的 AI 专家Ernest Davis那里赢了 100 美元。他跟我打赌 100 美元，说到 2026 年 12 月 4 日，没有 AI 能在国际数学奥林匹克竞赛中获得金牌。虽然我通常厌恶风险，不愿意打赌，但我认为这次打赌非常安全，而且事实上我提前一年多就赢了。

(3) 我和许多前 OpenAI 同事以及杰出的科学家和作家（Geoffrey Hinton、Stuart Russell、Sheldon Glashow、Sean Carroll、Matt Yglesias……）一起签署了一封致 OpenAI 的公开信，要求 OpenAI 就其持续改变自身结构的努力提高透明度。信中的问题主要要求 OpenAI 以书面形式声明，它是否已经完全放弃了该组织于 2015 年成立时的最初非营利目标。

(4) 我最近去了位于伯克利的理性主义者聚会场所Lighthaven（我们的朋友Cade Metz最近在《纽约时报》上对它进行了批评），那里将举办一个名为Inkhaven的作家驻留项目，持续整个11月。这个项目的理念——我很喜欢——是，你要么每天写一篇新博文，要么就被要求离开（同时你还可以参加一些研讨会等来提升写作技巧）。如果教学和家庭义务不冲突的话，我会亲自参加一个月；现在我正需要有人拿着鞭子在我身边督促我写作！事实上，我是Inkhaven的三位顾问之一，另外两位是Scott Alexander和Gwern，我会在那里待一个长周末，分享我的博客智慧，就像我之前分享的那样。感兴趣的话，现在就申请吧！

(5) 唉，Springer 旗下期刊《计算机科学前沿》(Frontiers of Computer Science)发表了一篇题为“SAT 需要穷举搜索”的无稽之谈，声称要解决（或者说是化解、重构，或者诸如此类）P 与 NP 问题。这篇论文看起来和我以前每周都会收到的邮件没什么区别——现在，在 ChatGPT 时代，我每天都会收到。这篇论文的发表表明同行评审流程彻底崩溃了。更糟糕的是，当 Eric Allender、Ryan Williams 和其他人通知编辑部，要求撤回论文时，主编拒绝了：详情请参阅Lance 博客上的这篇客座文章。在我看来， 《计算机科学前沿》现在已经完全丧失了作为期刊的信誉；在那里发表文章，就和在viXra上发表文章没什么两样。期刊本身作为一个机构，扣 10 分；而仅仅把文章发布到网上，让专家筛选，则加 10 分。

(6) Uma Girish 和 Rocco Servedio 发布了一篇名为《Forrelation 极其困难》的 arXiv 预印本。回想一下，在 Forrelation 问题中，你可以通过 oracle 访问两个 n 位布尔函数 f 和 g，并被要求估计 f 与 g 的傅里叶变换之间的相关性。我在 2009 年提出了这个问题，作为 BQP 与多项式层次之间 oracle 分离的候选——Ran Raz 和 Avishay Tal最终在 2018 年证明了这个猜想。我从未想过 Forrelation 可以导致EQP （即精确量子多项式时间）与多项式层次之间的 oracle 分离。为此，我认为你需要回到 Bernstein 和 Vazirani 最初的递归傅里叶采样问题。但Uma和Rocco用“弯曲的布尔函数”（弯曲了！）证明了这一点，这与我的直觉完全相反，他们指出，精确（零误差）版本的Forrelation已经是经典难题了，任何随机算法都需要Ω(2 ^n/4 )次查询。至于精确的Forrelation是否需要~Ω(2 ^n/2 )次随机查询（这才能满足上限），以及精确的Forrelation是否不在PH中，他们没有给出答案。

（7）谷歌量子团队低调发表了一篇题为《量子遍历动力学边缘的建设性干扰》的论文。论文中，他们使用 10^3 量子比特的超导处理器在多体扰乱过程中测量非时间序相关器 (OTOC)，并声称获得了优于最佳经典方法的可验证加速。如果结果属实，这将是迈向可验证量子霸权的重要一步，该霸权适用于一项“有用”的任务，符合某些“有用”的定义。

(8) 昨晚，中国科大团队在 arXiv 上报告称，他们完成了 3,050 个光子和 8,176 种模式的高斯玻色子采样。他们表示，这实现了量子霸权，比以往任何玻色子采样演示都清晰得多，甚至超过了（例如）所有现有的基于张量网络收缩的模拟。毋庸置疑，这仍然面临着所有当前基于采样的量子霸权实验的核心问题，即直接经典验证输出所需的指数级时间。

原文： https://scottaaronson.blog/?p=9047