引用马克·扎克伯格的话 – 搞英语 → 看世界

您还提到了整个 Chatbot Arena 的事情，我认为这很有趣，并指出了如何进行基准测试的挑战。您如何知道哪些模型适合哪些事物？

去年我们通常尝试做的事情之一是将我们的更多模型锚定在我们的 Meta AI 产品北极星用例中。开源基准测试以及诸如 LM Arena 之类的任何给定事物的问题在于，它们通常偏向于一组非常具体的用例，而这些用例实际上通常不是任何普通人在您的产品中所做的事情。 […]

因此，我们试图将我们的北极星定位于人们向我们报告的产品价值、他们所说的他们想要的东西、他们透露的偏好是什么，并利用我们拥有的体验。有时这些基准并不完全一致。我认为其中很多都很容易玩。

在 Arena 上，您会看到Sonnet 3.7之类的东西，这是一个很棒的模型，但它还没有接近顶部。我们的团队相对容易地调整了 Llama 4 Maverick 的版本，使其成为顶级版本。但我们发布的版本，即纯模型，实际上根本没有对此进行任何调整，所以它更进一步。因此，您只需要小心其中一些基准即可。我们将主要对产品进行索引。

—马克·扎克伯格，在 Dwarkesh Patel 的播客上

标签：元、生成人工智能、骆驼、马克扎克伯格、人工智能、聊天机器人竞技场、 LLMS

原文： https://simonwillison.net/2025/May/1/mark-zuckerberg/#atom-everything