观看 OpenAI 的新 o3 模型猜测照片拍摄地点是数十年科幻小说突然变为现实的时刻之一。它是增强按钮和全知数据库电视比喻之间的交叉。
过程很简单。拍摄某个地方的照片,最好不要在那里放置任何明显的地标。将其输入 ChatGPT o3(或 o4-mini)并提示“猜猜这张照片是在哪里拍摄的”。让它搅动。
(我发现我需要先关闭 ChatGPT 的所有内存功能,否则它会欺骗并使用我之前对话中的上下文。)
我给了它这张照片,是我坐在加利福尼亚州埃尔格拉纳达家附近的一家露天酒吧里拍的。我认为这是一个相当严峻的挑战:没有太多的识别特征,只有一条路、一栋匿名的房子和背景中的一些山丘:
…然后就走了。
我在这里分享了完整的记录– 请务必展开“Thought for 6m 48s”链接以查看它如何解决该问题的完整详细信息。
它以一个非常奇怪的错误开始:它短暂地假装根本看不到图像:
用户上传了一张图片并要求我猜测位置。首先,我需要分析图像以找出有关其拍摄地点的线索。由于我实际上看不到图像,因此我将依赖元数据。我看到分辨率为 1024×768,如果有线索,我会考虑任何文本信息。不幸的是,我无法直观地访问该图像,因此我将继续采用这种方法。
然后它摆脱了这种状态并开始使用它的视觉能力:
该图显示了一个住宅区,里面有小房子,其中一栋是浅绿色的,有白色的尖桩篱笆和灰色的屋顶。火坑和路标暗示着一家餐馆或咖啡馆,可能靠近海岸。橄榄树和加州罂粟花的环境暗示着加州沿海地区,可能是坎布里亚或莫罗湾等中部海岸。背景中色彩柔和的房屋和山丘类似于大苏尔等地区。车牌可以提供更多信息,但很难读取。
现在,它直接跳入科幻小说:
好吧,我将放大车牌来尝试确认状态,因为它可以帮助更准确地识别位置。该车牌可能会为我提供有关这张照片拍摄地点的线索,特别是如果它来自可识别的状态。让我们看看它是否足够可见且有用!
它运行一些Python代码!
# 裁剪车牌区域 w , h = img 。尺寸 # 近似面积:大致中心 x 可能是 1700?实际上宽度可能> 3024?让我们打印尺寸 打印(图像。大小) ( 3456 , 4608 )
令人沮丧的是,共享对话不包括它使用的大多数其他 Python(共享功能仍然有很多错误)。这是接下来发生的事情的屏幕截图:
它继续这样运行六分钟——裁剪和缩放到照片的某个区域,思考它能看到的内容,将其与之前的观察结果进行比较,然后再次裁剪和缩放并分析。
直接进入最后,这是它得出的最终答案:
我从这个场景中感受到了强烈的加州中部海岸的氛围:
线索 它意味着什么 SUV 上的加州风格车牌 我们几乎肯定在加利福尼亚州 大量盛开的加州罂粟花、一棵橄榄树和凉爽的海洋层天空 典型的加利福尼亚沿海中部植被和天气 低矮柔和的海滩小屋,配有白色尖桩篱笆和绳索和柱子露台栏杆 圣克鲁斯和皮斯莫之间的海滨小镇的常见建筑 城镇后面连绵起伏的绿色海岸山脉(没有高山,没有雪) 适合圣卢西亚/圣克鲁斯沿海山丘 放在一起,它指向 1 号公路上的一个小村庄。小屋和山丘背景的混合感觉最像加利福尼亚州坎布里亚(位于莫罗湾和卡尤科斯以北)。我猜你是在坎布里亚西村的一家咖啡馆露台上拍的这张照片,距离月光石海滩大道一两个街区。
(如果我离开,我的下一个猜测将是半月湾 – 更北的埃尔格拉纳达 – 但坎布里亚是我的第一直觉!)
效果如何?加州中部海岸的说法完全正确。加利福尼亚州坎布里亚距离我们大约 200 英里……但“我的下一个猜测”是正确的!这张照片确实是在半月湾北部的一个小镇埃尔格拉纳达拍摄的。
(我相信它没有作弊,看看照片上的 EXIF 数据,因为如果它作弊了,它就不会首先猜到坎布里亚。)
o3 当然不是唯一可以做到这一点的模型:我已经用 Claude 3.5 和 3.7 Sonnet 尝试过类似的事情,并且对那里的结果也印象深刻,尽管它们没有那种奢侈的“缩放”能力。
这是克劳德 3.7 十四行诗“扩展思维”猜测“加州一个中小型沿海城镇”。我尝试了Gemini,但它作弊并说“鉴于我当前的位置上下文是加利福尼亚州的埃尔格拉纳达……” – 所以我通过他们的 API 尝试了 Gemini 2.5 Pro ,并得到了“加利福尼亚州卡尤科斯隐藏厨房餐厅的露台”的错误猜测。
与搜索一样,o3 的不同之处在于工具的使用被集成到响应的“思考”阶段。
对于这些模型来说,可以用作专用思维链序列一部分的工具是一种极其强大的新模式。我预计我们很快就会从其他供应商那里看到这一点。
这该怎么办?
首先,这真的很有趣。观看模型翻阅照片、平移和缩放的思维过程,并讨论有关其可能位置的不同理论,非常有趣。这就像生活在 CSI 的一集中。
这也是深刻的反乌托邦。现在技术可以从照片中识别位置。至关重要的是,人们要了解这是多么容易 – 如果您有任何理由担心自己的安全,您需要知道您分享的任何照片 – 即使是像我上面的示例一样乏味的照片 – 都可以用来识别您的位置。
正如现代人工智能的常见情况一样,这项技术几乎向所有人开放,这一事实具有负面和正面的影响。与图像生成一样,重要的是人们可以直接看到这些东西可以做什么。看到这一点的实际应用是一个发自内心的教训,让我们了解现在的可能性。
标签:人工智能伦理,视觉 LLMS ,生成人工智能, O3 ,人工智能, LLMS
原文: https://simonwillison.net/2025/Apr/26/o3-photo-locations/#atom-everything