人类学：对最近三个问题的回顾

就模型可靠性而言，Anthropic 本月表现非常糟糕：

8月至9月初期间，三个基础设施漏洞间歇性地降低了Claude的响应质量。我们现已解决这些问题，并想解释一下具体原因。[…]

简而言之：我们绝不会因为需求、时间或服务器负载而降低模型质量。用户报告的问题完全是由于基础设施缺陷造成的。[…]

我们通常不会分享有关我们基础设施的这种级别的技术细节，但这些问题的范围和复杂性需要更全面的解释。

我很高兴 Anthropic 能如此详细地发布这个问题。他们可靠地服务模型的声誉受到了显著的打击。

我没有意识到他们混合使用不同的服务平台所造成的额外复杂性：

我们在多个硬件平台上部署了 Claude，即 AWS Trainium、NVIDIA GPU 和 Google TPU。[…] 每个硬件平台都有不同的特性，需要特定的优化。

听起来问题是由三个不同的错误引起的，不幸的是，这三个错误出现的时间非常接近。

Anthropic 还指出，他们的隐私做法使得调查这些问题变得特别困难：

我们进行的评估根本无法捕捉到用户报告的性能下降，部分原因是 Claude 通常能够很好地从孤立的错误中恢复。我们自身的隐私实践也给调查报告带来了挑战。我们的内部隐私和安全控制措施限制了工程师访问用户与 Claude 交互的方式和时间，尤其是在这些交互未作为反馈报告给我们的情况下。这保护了用户隐私，但却阻止了工程师检查识别或重现错误所需的问题交互。

他们提供的用于说明 TPU 特定错误的代码示例表明他们使用 Python 和JAX作为其服务层的一部分。

标签： python 、 ai 、事后分析、 generative-ai 、 llms 、人择、 claude

原文： https://simonwillison.net/2025/Sep/17/anthropic-postmortem/#atom-everything