(1) 我 8 岁的儿子上周问我:“爸爸,你听说 GPT-5 发布了吗?” 是的,我确实知道 GPT-5 发布了!我刚刚开始摆弄它。有关变化以及与以前的模型相比它有多令人印象深刻的详细报告,例如请参阅 Zvi #1 、 #2 、 #3 。简而言之,看起来幻觉和谄媚现象大幅减少,编码和其他任务的实际实用性也有所提高,尽管“原始智能”不太可能打败已经熟悉 o3 和 Opus 4 其他最先进模型的人,就像 ChatGPT 和随后的 GPT-4 打败了那些在 2022 年末和 2023 年初不知道会发生什么的人一样。您看到的结果有多令人印象深刻,部分取决于您的查询被路由到哪个GPT-5 模型,而您无法完全控制这一点。无论如何,对于那些声称 AGI 进展正在放缓的人来说,这是一个很好的消息,但对于那些声称在后 ChatGPT 时代,AGI 的进展将基本按照预期继续的人来说,这也是一个好消息!
(2) 另一则迟来的消息是,OpenAI 和 DeepMind(以及随后的其他公司)宣布,他们在国际数学奥林匹克竞赛中取得了金牌,解决了 6 道题中的 5 道(其中一道题是第 6 道,也是最难的一道题,所有 AI 都难以应对)。最重要的是,这意味着我从我的朋友、纽约大学的 AI 专家Ernest Davis那里赢了 100 美元。他跟我打赌 100 美元,说到 2026 年 12 月 4 日,没有 AI 能在国际数学奥林匹克竞赛中获得金牌。虽然我通常厌恶风险,不愿意打赌,但我认为这次打赌非常安全,而且事实上我提前一年多就赢了。
(3) 我和许多前 OpenAI 同事以及杰出的科学家和作家(Geoffrey Hinton、Stuart Russell、Sheldon Glashow、Sean Carroll、Matt Yglesias……)一起签署了一封致 OpenAI 的公开信,要求 OpenAI 就其持续改变自身结构的努力提高透明度。信中的问题主要要求 OpenAI 以书面形式声明,它是否已经完全放弃了该组织于 2015 年成立时的最初非营利目标。
(4) 我最近去了位于伯克利的理性主义者聚会场所Lighthaven(我们的朋友Cade Metz最近在《纽约时报》上对它进行了批评),那里将举办一个名为Inkhaven的作家驻留项目,持续整个11月。这个项目的理念——我很喜欢——是,你要么每天写一篇新博文,要么就被要求离开(同时你还可以参加一些研讨会等来提升写作技巧)。如果教学和家庭义务不冲突的话,我会亲自参加一个月;现在我正需要有人拿着鞭子在我身边督促我写作!事实上,我是Inkhaven的三位顾问之一,另外两位是Scott Alexander和Gwern,我会在那里待一个长周末,分享我的博客智慧,就像我之前分享的那样。感兴趣的话,现在就申请吧!
(5) 唉,Springer 旗下期刊《计算机科学前沿》(Frontiers of Computer Science)发表了一篇题为“SAT 需要穷举搜索”的无稽之谈,声称要解决(或者说是化解、重构,或者诸如此类)P 与 NP 问题。这篇论文看起来和我以前每周都会收到的邮件没什么区别——现在,在 ChatGPT 时代,我每天都会收到。这篇论文的发表表明同行评审流程彻底崩溃了。更糟糕的是,当 Eric Allender、Ryan Williams 和其他人通知编辑部,要求撤回论文时,主编拒绝了:详情请参阅Lance 博客上的这篇客座文章。在我看来, 《计算机科学前沿》现在已经完全丧失了作为期刊的信誉;在那里发表文章,就和在viXra上发表文章没什么两样。期刊本身作为一个机构,扣 10 分;而仅仅把文章发布到网上,让专家筛选,则加 10 分。
(6) Uma Girish 和 Rocco Servedio 发布了一篇名为《Forrelation 极其困难》的 arXiv 预印本。回想一下,在 Forrelation 问题中,你可以通过 oracle 访问两个 n 位布尔函数 f 和 g,并被要求估计 f 与 g 的傅里叶变换之间的相关性。我在 2009 年提出了这个问题,作为 BQP 与多项式层次之间 oracle 分离的候选——Ran Raz 和 Avishay Tal最终在 2018 年证明了这个猜想。我从未想过 Forrelation 可以导致EQP (即精确量子多项式时间)与多项式层次之间的 oracle 分离。为此,我认为你需要回到 Bernstein 和 Vazirani 最初的递归傅里叶采样问题。但Uma和Rocco用“弯曲的布尔函数”(弯曲了!)证明了这一点,这与我的直觉完全相反,他们指出,精确(零误差)版本的Forrelation已经是经典难题了,任何随机算法都需要Ω(2 n/4 )次查询。至于精确的Forrelation是否需要~Ω(2 n/2 )次随机查询(这才能满足上限),以及精确的Forrelation是否不在PH中,他们没有给出答案。
(7)谷歌量子团队低调发表了一篇题为《量子遍历动力学边缘的建设性干扰》的论文。论文中,他们使用 10^3 量子比特的超导处理器在多体扰乱过程中测量非时间序相关器 (OTOC),并声称获得了优于最佳经典方法的可验证加速。如果结果属实,这将是迈向可验证量子霸权的重要一步,该霸权适用于一项“有用”的任务,符合某些“有用”的定义。
(8) 昨晚,中国科大团队在 arXiv 上报告称,他们完成了 3,050 个光子和 8,176 种模式的高斯玻色子采样。他们表示,这实现了量子霸权,比以往任何玻色子采样演示都清晰得多,甚至超过了(例如)所有现有的基于张量网络收缩的模拟。毋庸置疑,这仍然面临着所有当前基于采样的量子霸权实验的核心问题,即直接经典验证输出所需的指数级时间。