就模型可靠性而言,Anthropic 本月表现非常糟糕:
8月至9月初期间,三个基础设施漏洞间歇性地降低了Claude的响应质量。我们现已解决这些问题,并想解释一下具体原因。[…]
简而言之:我们绝不会因为需求、时间或服务器负载而降低模型质量。用户报告的问题完全是由于基础设施缺陷造成的。[…]
我们通常不会分享有关我们基础设施的这种级别的技术细节,但这些问题的范围和复杂性需要更全面的解释。
我很高兴 Anthropic 能如此详细地发布这个问题。他们可靠地服务模型的声誉受到了显著的打击。
我没有意识到他们混合使用不同的服务平台所造成的额外复杂性:
我们在多个硬件平台上部署了 Claude,即 AWS Trainium、NVIDIA GPU 和 Google TPU。[…] 每个硬件平台都有不同的特性,需要特定的优化。
听起来问题是由三个不同的错误引起的,不幸的是,这三个错误出现的时间非常接近。
Anthropic 还指出,他们的隐私做法使得调查这些问题变得特别困难:
我们进行的评估根本无法捕捉到用户报告的性能下降,部分原因是 Claude 通常能够很好地从孤立的错误中恢复。我们自身的隐私实践也给调查报告带来了挑战。我们的内部隐私和安全控制措施限制了工程师访问用户与 Claude 交互的方式和时间,尤其是在这些交互未作为反馈报告给我们的情况下。这保护了用户隐私,但却阻止了工程师检查识别或重现错误所需的问题交互。
他们提供的用于说明 TPU 特定错误的代码示例表明他们使用 Python 和JAX作为其服务层的一部分。
标签: python 、 ai 、事后分析、 generative-ai 、 llms 、人择、 claude
原文: https://simonwillison.net/2025/Sep/17/anthropic-postmortem/#atom-everything