感谢所有对原帖发表评论的人。 许多人进行了自己的测试,有些成功,有些则不太成功。例如,Torches Together( 博客) 写道:
瓦迪姆 ( 博客)写道:
无序费米子做了最彻底的一组测试:
费米恩总结道:“它得到了旅游目的地,那里有很多非常准确的照片,例如照片 4、5、8 和 7 在某种程度上”。 在查看了许多其他用户测试后,我发现这是关于正确与错误的最有洞察力的经验法则。回想起来,凯尔西的加州海滩和我的尼泊尔徒步路线都非常适合旅游;我在密歇根的房子和瓦迪姆的西伯利亚街道不是。 有人质疑o3是否可能在尼泊尔图片上作弊。拉帕托尼写道:
我怀疑就是这个。 o3 提供了一个纬度 + 经度作为其猜测:28.00 ° N,86.85 ° E。我没有将其包含在我的帖子中,因为我不记得拍摄照片的确切纬度 + 经度,因此它没有在 Gorak Shep 的命名中添加或减去任何内容。这是该地区地图上绘制的纬度/经度。 我所记得的真实位置是它位于从 Gorak Shep 到 Kala Pattar 的绿色虚线上。 GeoGuess 距离珠穆朗玛峰大本营比真实位置更近,但距离珠穆朗玛峰顶峰并不远。但它只给出了百分之一度的答案,而且比例足够小,0.01度的误差范围涵盖了大本营和(几乎)真实位置。 但思路清楚地表明,它考虑的是通往大本营的小路(其中包括 Gorak Shep,并且非常靠近 Kala Pattar),而不是大本营本身: 这比只说“珠穆朗玛峰大本营”更正确,所以我比只说珠穆朗玛峰大本营印象更深刻。 我没有继续对此提起诉讼,而是向它询问了一些远离珠穆朗玛峰的山脉的类似模糊图片: o3猜的是“富士山的上坡”,这是正确的。 o3 猜测是“美国中西部石灰岩小道”,这是错误的。它接下来的四个猜测也都是错误的。当我给它完整的照片时: ……它猜测是法国旺图山,这也是错误的。它的第三个猜测是希腊的奥林匹斯山,这是正确的。 富士山和珠穆朗玛峰都比奥林匹斯山(不知何故)更适合旅游,所以我认为这符合费米子“擅长旅游景点”的理论。 另外,我拍摄非常糟糕的山脉照片并且从不向任何人展示它们的习惯终于得到了回报! 有人指出,人类的 GeoGuessrs 也很神奇。亚历克斯·扎沃卢克写道:
这是对 YouTube GeoGuessr 冠军 Trevor Rainbolt(显然是他的真名 – 我希望我的名字那么酷)的引用。这是他的作品的一个(诚然是精心挑选的)示例: 这显然令人印象深刻。 Rainbolt 在这里解释了他的一些策略: …其中很多都与道路和谷歌街景有关 – 道路标记、汽车、护柱(道路旁边的短杆)、电线杆,以及哪辆谷歌汽车在哪一天覆盖了哪个区域。他能像我测试中那样随机拍摄街头照片吗? 在这里(来自 Discord 的 h/t CptDrMoreno)Rainbolt 做了明显不可能的猜测,就像标题图片(“实际上只是蓝色”)。我不知道这些是多么精心挑选的:在其中一个,他说这基本上只是运气,对于任何断章取义的人来说,这看起来像是作弊(例如在这个精彩集锦中)。但在另一篇文章中,他说他“永远无法解释”他是如何得到它的,但表现得好像他正在使用一些真正的技能,而不是仅仅进行一百万个不可能的猜测并得到一个正确的结果。 如果Rainbolt的技能与这段视频中的样子很接近,我不认为“毕竟不用担心人工智能”,而是“Trevor Rainbolt远远超出了我们其他人,就像直升机工程师对黑猩猩来说一样,如果你没有预测到人类有可能猜出蓝天图片的位置,那么你会对超级智能的能力感到加倍的惊讶”。 Twitter 上的一些人( @scaling01和@DeepGuessr )提到了正式的 AI GeoGuessr 基准的存在。 首先是GeoBench : ……人工智能几乎可以与人类专业人士相媲美,但不太匹配(o3 甚至还没有名列前茅!) 第二个是DeepGuessr : …它没有与人类进行比较,但首先找到了 o1,Gemini 和 o3 紧随其后。 您可以自己玩 DeepGuessr 的基准测试,看看您与所有 AI 相比表现如何。 丹尼尔·康( 博客)写道:
我没想到这一点,但这是有道理的! OpenAI 正在尝试获取所有可以获取的数据源来进行训练。如果数据源很难做到、易于检查、可以大规模重复,并且能够教授某种可转移的推理技能,那么它们对人工智能来说是有用的。 GeoGuessr 当然很重要。这可能根本不是一般智能的一个例子;只是一个在 GeoGuessr 接受过训练的人工智能非常擅长。 另一方面,DeepGuessr 基准测试发现,像 GPT-4o 和 GPT-4.1 这样的基础模型在这方面几乎与推理模型一样好,我预计这些模型的后期训练会更少,可能不足以包含 GeoGuessr(请参阅有关 OpenAI 模型的 AIFP 博客文章以获取更多解释)。 而了解 o3 是如何训练的人也感到惊讶: 我最喜欢的测试是 Loweren 在ACX Discord上的测试,他给了 o3 这个挑战: o3答对了:这里是中国天都城。 您目前是Astral Codex Ten的免费订阅者。要获得完整的体验, 请升级您的订阅。
© 2025斯科特·亚历山大 |
AI Geoguessr 评论要点
…
͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏