…

͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏ ͏

转发此电子邮件？在这里订阅以了解更多信息

AI Geoguessr 评论要点

…

5月8日

在应用程序中阅读

感谢所有对原帖发表评论的人。

许多人进行了自己的测试，有些成功，有些则不太成功。例如，Torches Together（博客）写道：

我从 5 张照片中得到的结果： 1 个位置正确，但速度很慢； 1 足够接近（正确的国家）； 1 完全关闭（错误的大陆，即使在提示后），2 好的（地中海的不同部分）。

我在光线不好的法国城镇广场上的一张照片上测试了它。 CoT 既聪明又愚蠢。它从微小的细节（细微不同的汽车品牌、几乎看不见的街道线）推断出一些正确的事情，并很快猜出了这个国家。但有一个店名，不同的字母隐藏在两个不同的位置——人类可以立即推断出这个名字。 o3 花了超过 5 分钟的时间来研究这个店名，陷入了许多错误的兔子洞。最终得到了准确的位置，但是花了15分钟多！

然后，我在吉尔吉斯斯坦测试了一个相对较好的拍摄环境，海拔 1000 公里，有充足的地质和树叶可供分析，距离超过 6000 公里（猜测是科罗拉多州），而且没有一个猜测是在亚洲。但这只用了不到 2 分钟。我告诉它再试一次——超过 5000 公里远，花了 7 分钟，它建议澳大利亚、欧洲、新西兰、阿根廷等。没有在中亚。

在我看来，这表明它可能更多地接受美国和英国数据的训练，并且偏向美国和英国的数据。如果数据集中科罗拉多州的图片比吉尔吉斯山脉的图片多 100 倍，我不会感到惊讶。

接下来的三场比赛表现还不错。所有相对干净的照片至少有一点证据。它猜想的是巴塞罗那的公园而不是罗马，猜想的是加泰罗尼亚的森林而不是阿尔巴尼亚，猜想的是克里特岛而不是帕纳斯山脉。

瓦迪姆 （博客）写道：

我试图在几张以前不在网上的西伯利亚街道照片上重现这一点，但结果远没有这篇文章中描述的那么令人印象深刻。当模型看到俄语铭文或国旗时，它似乎意识到自己在俄罗斯；如果失败的话，它甚至不能总是让国家正确。当它这样做时，它通常会弄错数千公里的地方。我不明白这种差异从何而来。好奇的。

无序费米子做了最彻底的一组测试：

我在这 10 张图像上使用了 o3 和你的确切提示，我将每张图像都放在 o3 的单独实例中，粘贴到 Paint 中以删除元数据，它的结果非常复杂，有些非常好，有些则不是：

如果您想先尝试猜测，请链接此处： https://ibb.co/album/M8zS9P

它猜测日本本州是伊利诺伊州中部。错误距离：10,500公里

它猜测弗吉尼亚州罗杰斯山是西弗吉尼亚州云杉诺布。错误距离：280公里

它猜测密歇根州的兰辛是大学公园医学博士。错误距离：760公里

当提示它在耶路撒冷的哪个地方猜测十字谷时，它猜测耶路撒冷以色列是耶路撒冷，距离正确答案不到 1 公里。

它猜测了哥斯达黎加瓜纳卡斯特省帕帕加约湾，并在提示后猜测了哥斯达黎加瓜纳卡斯特省帕帕加约湾的秘密帕帕加约度假村。这是完全正确的

它猜测英国南威尔士是纽约州布法罗。错误距离：5,500公里

它猜测底特律的帕卡德大厦是底特律福特皮奎特工厂。错误距离：3公里

它猜测马里兰州（美国）弗雷德里克堡州立公园是正确的。

它猜测是佐治亚州亚特兰大，是田纳西州加特林斯堡。错误距离：230公里

它猜测美国南加州是新泽西州六旗游乐园。错误距离：3800公里

费米恩总结道：“它得到了旅游目的地，那里有很多非常准确的照片，例如照片 4、5、8 和 7 在某种程度上”。

在查看了许多其他用户测试后，我发现这是关于正确与错误的最有洞察力的经验法则。回想起来，凯尔西的加州海滩和我的尼泊尔徒步路线都非常适合旅游；我在密歇根的房子和瓦迪姆的西伯利亚街道不是。

有人质疑o3是否可能在尼泊尔图片上作弊。拉帕托尼写道：

这不仅仅是一张放大的岩石照片。这是一张插在岩石之间的奇幻旗帜的照片，旗帜后面有一条被踩过的小路。它猜测“尼泊尔，位于 Gorak Shep 东北方，±8 公里”。您知道 Gorak Shep 的东北方向（直线距离约 3.3 公里）是什么吗？珠穆朗玛峰大本营。它根据在青藏高原某处拍摄幻想旗帜的人最有可能在哪里拍摄做出了一个非常有根据的猜测。

如果有人问我“在青藏高原的哪个地方可以有人插一面旗帜并拍照”，实际上第一个（也许是唯一的）想到的就是“不知道，珠穆朗玛峰？”这已经和 o3 的猜测差不多了。我的意思是，珠穆朗玛峰的山坡肯定是拍摄这样的照片最不随机的地方。

我怀疑就是这个。

o3 提供了一个纬度 + 经度作为其猜测：28.00 ° N，86.85 ° E。我没有将其包含在我的帖子中，因为我不记得拍摄照片的确切纬度 + 经度，因此它没有在 Gorak Shep 的命名中添加或减去任何内容。这是该地区地图上绘制的纬度/经度。

https%3A%2F%2Fsubstack-post-media.s3.ama

我所记得的真实位置是它位于从 Gorak Shep 到 Kala Pattar 的绿色虚线上。

GeoGuess 距离珠穆朗玛峰大本营比真实位置更近，但距离珠穆朗玛峰顶峰并不远。但它只给出了百分之一度的答案，而且比例足够小，0.01度的误差范围涵盖了大本营和（几乎）真实位置。

但思路清楚地表明，它考虑的是通往大本营的小路（其中包括 Gorak Shep，并且非常靠近 Kala Pattar），而不是大本营本身：

由几个不同的 CoT 部件拼接而成。没有人暗示大本营本身就是地点。

这比只说“珠穆朗玛峰大本营”更正确，所以我比只说珠穆朗玛峰大本营印象更深刻。

我没有继续对此提起诉讼，而是向它询问了一些远离珠穆朗玛峰的山脉的类似模糊图片：

o3猜的是“富士山的上坡”，这是正确的。

o3 猜测是“美国中西部石灰岩小道”，这是错误的。它接下来的四个猜测也都是错误的。当我给它完整的照片时：

……它猜测是法国旺图山，这也是错误的。它的第三个猜测是希腊的奥林匹斯山，这是正确的。

富士山和珠穆朗玛峰都比奥林匹斯山（不知何故）更适合旅游，所以我认为这符合费米子“擅长旅游景点”的理论。

另外，我拍摄非常糟糕的山脉照片并且从不向任何人展示它们的习惯终于得到了回报！

有人指出，人类的 GeoGuessrs 也很神奇。亚历克斯·扎沃卢克写道：

普通人只是不明白 GeoGuessng 有多好。。。去 YouTube 上观看一些 Rainbolt 剪辑，他会在几秒钟内连续说出 5 个与你的第二张图片相当的猜测，同时谈论其他事情。

并不是说 o3 不令人印象深刻，但这一切似乎都无法与顶级人类相媲美，更不用说是超级人类了。另外，根据解释，它似乎是在执行此操作时搜索互联网，这通常不是玩 geoguessr 的方式。

这是对 YouTube GeoGuessr 冠军 Trevor Rainbolt（显然是他的真名 – 我希望我的名字那么酷）的引用。这是他的作品的一个（诚然是精心挑选的）示例：

这显然令人印象深刻。 Rainbolt 在这里解释了他的一些策略：

…其中很多都与道路和谷歌街景有关 – 道路标记、汽车、护柱（道路旁边的短杆）、电线杆，以及哪辆谷歌汽车在哪一天覆盖了哪个区域。他能像我测试中那样随机拍摄街头照片吗？

在这里（来自 Discord 的 h/t CptDrMoreno）Rainbolt 做了明显不可能的猜测，就像标题图片（“实际上只是蓝色”）。我不知道这些是多么精心挑选的：在其中一个，他说这基本上只是运气，对于任何断章取义的人来说，这看起来像是作弊（例如在这个精彩集锦中）。但在另一篇文章中，他说他“永远无法解释”他是如何得到它的，但表现得好像他正在使用一些真正的技能，而不是仅仅进行一百万个不可能的猜测并得到一个正确的结果。

如果Rainbolt的技能与这段视频中的样子很接近，我不认为“毕竟不用担心人工智能”，而是“Trevor Rainbolt远远超出了我们其他人，就像直升机工程师对黑猩猩来说一样，如果你没有预测到人类有可能猜出蓝天图片的位置，那么你会对超级智能的能力感到加倍的惊讶”。

Twitter 上的一些人（ @scaling01和@DeepGuessr ）提到了正式的 AI GeoGuessr 基准的存在。

首先是GeoBench ：

……人工智能几乎可以与人类专业人士相媲美，但不太匹配（o3 甚至还没有名列前茅！）

第二个是DeepGuessr ：

…它没有与人类进行比较，但首先找到了 o1，Gemini 和 o3 紧随其后。

您可以自己玩 DeepGuessr 的基准测试，看看您与所有 AI 相比表现如何。

丹尼尔·康（博客）写道：

o3 可能接受过一系列 geoguessr 式任务的训练。这不会给您带来太多更新，因为我们知道至少从 2016 年起，大量数据上的专家系统就碾压了人类。

我发现这个演示非常有趣，因为它让人们对性能有一种发自内心的感觉，但实际上它不应该给你带来太多更新。这是我的理由。

多年来我们就知道，专家系统可以用足够的数据碾压人类（足够的数据可能意味着一万个样本到数十亿个样本，具体取决于任务）。我们从 2016 年左右的 AlphaGo 就知道了这一点。特别是对于地理猜测，一些斯坦福大学的学生破解了一个人工智能系统，在 2022 年击败了 Rainman（职业地理猜测玩家）。

我们还知道 o3 接受了大量强化学习任务的训练，其中一些任务具有“经过验证的奖励”。几乎可以肯定，OpenAI 的人们正在将每一个可以想象的任务的每一个信息都塞进他们的 o 系列模型中！这里的启发是，如果有一个易于验证的答案并且您可以想到它，那么 o3 可能接受过该答案的训练。

这意味着 o3 在每项易于验证的任务上都应该达到专家系统级性能，而 o4 会更好。我认为这不会让你对人工智能功能有太多了解。

我没想到这一点，但这是有道理的！ OpenAI 正在尝试获取所有可以获取的数据源来进行训练。如果数据源很难做到、易于检查、可以大规模重复，并且能够教授某种可转移的推理技能，那么它们对人工智能来说是有用的。 GeoGuessr 当然很重要。这可能根本不是一般智能的一个例子；只是一个在 GeoGuessr 接受过训练的人工智能非常擅长。

另一方面，DeepGuessr 基准测试发现，像 GPT-4o 和 GPT-4.1 这样的基础模型在这方面几乎与推理模型一样好，我预计这些模型的后期训练会更少，可能不足以包含 GeoGuessr（请参阅有关 OpenAI 模型的 AIFP 博客文章以获取更多解释）。

而了解 o3 是如何训练的人也感到惊讶：