您还提到了整个 Chatbot Arena 的事情,我认为这很有趣,并指出了如何进行基准测试的挑战。您如何知道哪些模型适合哪些事物?
去年我们通常尝试做的事情之一是将我们的更多模型锚定在我们的 Meta AI 产品北极星用例中。开源基准测试以及诸如 LM Arena 之类的任何给定事物的问题在于,它们通常偏向于一组非常具体的用例,而这些用例实际上通常不是任何普通人在您的产品中所做的事情。 […]
因此,我们试图将我们的北极星定位于人们向我们报告的产品价值、他们所说的他们想要的东西、他们透露的偏好是什么,并利用我们拥有的体验。有时这些基准并不完全一致。我认为其中很多都很容易玩。
在 Arena 上,您会看到Sonnet 3.7之类的东西,这是一个很棒的模型,但它还没有接近顶部。我们的团队相对容易地调整了 Llama 4 Maverick 的版本,使其成为顶级版本。但我们发布的版本,即纯模型,实际上根本没有对此进行任何调整,所以它更进一步。因此,您只需要小心其中一些基准即可。我们将主要对产品进行索引。
—马克·扎克伯格,在 Dwarkesh Patel 的播客上
标签:元、生成人工智能、骆驼、马克扎克伯格、人工智能、聊天机器人竞技场、 LLMS
原文: https://simonwillison.net/2025/May/1/mark-zuckerberg/#atom-everything