有趣又有创意的全新微评估。将世界分割成一系列经纬度点的样本集合,并针对每个点询问一个模型:
If this location is over land, say 'Land'. If this location is over water, say 'Water'. Do not say anything else.
作者亨利更进一步:对于揭示对数概率的模型,他们使用陆地或水的相对概率分数来获得置信水平,对于其他模型,他们在温度 1 下提示四次以获得分数。
然后……他们把这些概率画在图表上!这是 Gemini 2.5 Flash 的结果(比较好的结果之一):
这让我想起了我的鹈鹕骑自行车基准,它为您提供了即时的视觉表示,可以很容易地比较不同的型号。
原文: https://simonwillison.net/2025/Aug/13/how-does-a-blind-model-see-the-earth/#atom-everything