最小可行人工智能可观测性：发布第一个人工智能功能后需要设置哪些内容

市面上很多关于“LLM可观测性”的内容都是为大规模运行生产级AI的团队准备的：企业级治理、复杂的评估流程、专业的AI平台工程师。如果你已经具备这些条件，这些内容当然很有用；但如果你只是在周二发布了第一个AI功能，这些内容就显得过于复杂了。

本指南面向另一半用户——小型团队、氛围程序员和个人创始人，他们的应用程序中只有几个代理或LLM通话，没有数据团队，也不知道从哪里开始进行AI可观测性开发。

答案不是把所有东西都设置好，而是设置好最低限度的东西，以免措手不及，跳过那些暂时不会带来回报的东西，随着产品的发展逐步增加深度。

这就是它在实践中的样子。

什么是人工智能可观测性？

AI 可观测性（通常与LLM 可观测性和LLM 分析互换使用）是指监控应用程序 AI 功能内部正在发生的事情的实践：您发送的提示、您收到的响应、调用需要多长时间、调用成本是多少以及输出是否良好。

传统的APM工具（ Datadog或New Relic）并非为此而设计。它们可以告诉你对OpenAI的API调用成功返回了200状态码，但它们无法告诉你响应是错误的，也无法告诉你你的提示信息花费了3倍于正常水平的成本。

人工智能可观测性填补了这一空白。

核心组成部分包括：

跟踪记录——LLM 调用（或调用链）的完整记录，包括输入、输出、模型、参数和时间。
成本和令牌跟踪——按模型、用户或功能细分每次调用的成本。
评估（evaluations） ——衡量产出质量的方法，而不仅仅是衡量产出是否成功。
提示管理——无需重新部署代码即可对提示进行版本控制和迭代
反馈循环——捕获用户对人工智能输出的信号（点赞/点踩、重试、放弃）。

你不需要第一天就拥有所有这些。大多数MVP只需要其中两项。

我的MVP为什么需要可观测性？

以下三个原因，按忽略它们带来的痛苦程度排序：

AI 功能会消耗大量资金，而且往往悄无声息地增加——相信我们，我们深有体会。一个简单的重试循环错误，或者一个提示信息长度翻倍，就可能在一夜之间耗尽每日 API 预算。你不会在传统的分析数据中看到这一点，但你会在每月账单上看到它。
AI故障看起来就像代码运行正常一样。你的函数返回了一个字符串，但这个字符串是错误的。没有异常，没有错误日志，监控中也没有任何警告——用户只是在阅读一些莫名其妙的内容。你需要一种能够捕获这种故障的方法，而不是“等着看有人在推特上狠狠吐槽你的聊天机器人”。
你无法改进你看不见的东西。当用户说“AI 做了些奇怪的事情”时，“奇怪”并不是一个可以调试的信息。没有跟踪记录，你只能猜测。

好消息是，AI 可观测性的第一个版本很容易设置，而且大多数工具的免费层级足以满足您超过一千名用户的需求。

第一天需要准备什么

三件事，所有这些都可以在一个下午内完成连接（特别是如果您使用 PostHog，因为Wizard可以为您完成所有繁重的工作）。

1. 追踪每一次LLM调用

这是其他一切的基础。对于每次调用，都要捕获完整的输入（提示符+上下文+参数）、完整的输出、使用的模型、延迟和令牌计数。

您可以使用这些数据来调试其他所有问题：成本问题、延迟问题、质量投诉、奇怪的输出。

如果你从本指南中什么都记不住，那就记住设置跟踪。

大多数LLM可观测性工具通过在OpenAI或Anthropic客户端外封装一个小型SDK来处理这个问题。只需初始化一次封装后的客户端，即可像使用普通SDK一样使用它，每次调用都会自动记录日志。

2. 成本跟踪

追踪设置完成后，成本追踪几乎是免费的——您的工具会根据令牌计数和模型计算每次调用的成本。您真正需要做的是设置警报，以便在出现异常情况时收到通知。

至少：

当每日支出超过预期基准值一定倍数（例如，7 天滚动平均值的 2 倍）时，系统会发出警报。
按模型细分，这样您就可以发现何时调用的是gpt-5.5而不是gpt-5.4-mini ，例如
按用户细分，这样就不会因为一个超级用户（或一个滥用案例）而导致利润率大幅下降。

相信我们：支付过高价格的风险并非假设。

当 PostHog 团队深入分析我们自己的 AI 代理（PostHog Wizard）的成本时，我们发现它在三个意想不到的地方消耗了大量代币：重复读取已读取的文件、在上下文压缩后重复执行工作，以及生成无法可靠终止的子代理。我们之所以能发现这些问题，是因为成本数据就存储在AI 可观测性中。如果没有这些数据，我们可能就只能支付这笔巨额费用然后继续前进了。

3. 错误捕获

LLM 调用失败的方式比常规 API 调用更多样。除了常见的失败原因（速率限制、超时、网络错误）之外，您还会遇到以下情况：

工具调用失败——代理尝试调用某个工具，但该工具出错或返回了格式错误的数据，并且循环可能已经恢复，也可能尚未恢复。
代理循环无法终止——模型不断调用自身、生成子代理或拒绝退出。
结构化输出解析失败——模型返回了有效的文本，但您期望的是结构化数据，而实际返回的是无效的 JSON。
令牌/上下文限制错误——提示或对话超出范围，通常是无声的。
内容策略违规——提供商已阻止响应，您的代码需要妥善处理。

你需要将所有这些错误都显示出来。如果你已经为应用程序的其他部分设置了错误跟踪，请确保 LLM 错误也流入其中。

如果没有，请添加。

追踪信息、错误信息和日志的结合，是调试 AI 功能而不至于崩溃的关键。错误信息告诉你哪里出了问题；追踪信息告诉你智能体在出错时正在做什么；日志（工具调用、中间状态、决策）告诉你出错的原因。

稍后添加的内容

以下是大多数MVP阶段团队容易过度投入的地方。这些做法本身都是合理的，但当你的用户数量不足一千，且只有一个AI功能时，可能就不是应该把时间花在这些事情上的最佳时机。

复杂评估套件

你不需要从五个不同的质量维度设置15项评估标准，也不需要一群法学硕士级别的评委互相交叉审核。你甚至可能都不需要自动化评估。

评估最终是必不可少的，但在MVP阶段往往为时尚早。为什么？因为：

您的流量不足以使自动评分在统计学上具有意义。
你还不清楚你的产品“好”的标准是什么，所以你制定的任何评价标准都可能不准确。
在这个规模下，与其依赖评估，不如直接阅读输出结果。每周花30分钟随机查看一些跟踪记录，你会发现比任何评估标准都多的问题。

当世代数多到你无法全部阅读时（通常每天几百代），添加自动评估功能。

准备就绪后，我们的AI 代理测试入门指南将带您了解最小评估套件的实际构成——来自真实用户查询和最近错误的数量数据集、一两个廉价的基于代码的评估器、一个 LLM 作为主观标准的评判者，以及定期的跟踪审查程序。

A/B 测试提示变体

提示实验功能非常棒，我们刚刚推出了测试版——您可以并排测试多达 10 个提示版本，成本、延迟和评估通过率作为内置指标。

甚至还有一个代理提示，你可以将其粘贴到 Cursor 或 Claude Code 中，它会为你连接整个实验；我们已经在它上面运行我们自己的实验了。

也就是说：这是一个需要逐步完善的功能，而不是一开始就应该使用的功能。在流量足够大到足以检测出不同版本之间的差异之前，急于进行实验是毫无意义的。如果你每天只有 50 个用户，那么即使质量提升 10%，也需要几个月的时间才能达到统计学意义上的显著性。

在流量达到一定规模之前：先发布感觉更好的提示信息，然后继续进行下一步。跟踪输出结果，以便在出现问题时可以回滚。等到每天有几百代的迭代次数，并且有了真正值得验证的假设时，再回头处理这个问题。

重型即时管理基础设施

如果团队中只有一个人负责编写提示，并且你通过常规的代码部署来发布提示更改，那么你暂时不需要单独的提示管理系统。在你的代码仓库中添加一个prompts.py文件即可。

当出现以下情况时，提示管理就显得尤为重要：(a) 多人编辑提示；(b) 希望非工程师在不部署的情况下迭代提示；(c) 希望独立于代码对提示进行版本控制和回滚。这些情况通常不会在项目初期就出现。

定制的可观测性基础设施

别这么做。你会花一个月时间做出一个只有现有产品一半好的东西，然后把剩下的宝贵空闲时间都花在维护它上，而不是发布你的产品。

你以后总可以迁移，但实际上你不需要（而且，迁移通常很糟糕，所以省省你的麻烦吧）。

到处都有免费套餐——PostHog每月免费提供 10 万个 LLM 事件，Langfuse 可以免费自托管， Datadog 的免费套餐包含每月 4 万个 LLM span……不妨试试其中一个。

要深入了解免费和自托管选项，请参阅我们对最佳开源 LLM 可观测性工具的比较。

漂移检测、治理仪表盘、AI红队演练流程

所有功能都很酷。但所有这些在MVP阶段都不是必需的。

先把这些归档到“等有了真正的AI运维职能后再重新审视的内容”里。

分阶段速查表

随着产品日趋成熟，对可观测性的要求也会提高。以下是大致的分层顺序。

第一阶段：您拥有可观的流量（每天几百代）

添加自动化评估。现在你不可能读取所有跟踪信息，因此需要一种方法来发现回归问题。首先，尽可能使用确定性的、基于代码的评估——例如简单的检查，如“代理调用了正确的工具”、“输出中没有出现禁用关键字”、“没有引发错误”或与预期响应的莱文斯坦距离。这些方法成本低、速度快，而且不会给你的测试流程增加对 LLM 的依赖。只有当评判标准确实非常主观，以至于代码无法捕捉时（例如语气、帮助性、幻觉检测），才应该使用LLM 作为评判标准。在生产环境跟踪样本上运行这两种方法。

添加用户反馈收集功能。即使是对 AI 输出的简单点赞/踩，对调试来说也是宝贵的资源。将该信号与跟踪数据结合起来，您可以快速找到用户不喜欢的方面——PostHog的调查功能可在应用内处理这些操作，并将回复与同一用户关联起来。

添加会话回放功能。观察用户对 AI 输出的实际反应，可以揭示一些指标无法提供的信息。他们是否重试？编辑？复制粘贴？关闭标签页？如果您还没有这项功能，请参阅我们关于最佳会话回放工具的指南。

第二阶段：您拥有多个人工智能功能和一个小型团队。

将评估转移到线上。离线评估仅涵盖您定义的输入。在线评估会针对实际生产环境中的部分数据（5-10% 就足够了）运行，从而发现测试集未曾预料到的问题。尽可能使用低成本的基于代码的评估工具，而对于主观性较强的部分，则使用成本更低的 LLM 评判器。

建立一套跟踪审查流程。PostHog负责 AI 功能的团队每周都会进行一次“跟踪时间”活动，他们会查看标记的跟踪记录（低反馈评分、错误峰值、支持工单、异常值集群），并将这些模式转化为新的评估方法。下一代评估人员正是在这里诞生的。

将 LLM 数据与产品分析相结合。 “使用过我们 AI 功能的用户留存率提高了一倍”这类洞察足以证明整笔投资的合理性。要做到这一点，您的 LLM 可观测性需要与产品分析共享用户模型——这也是为什么捆绑式工具往往在这个阶段更胜一筹的原因之一。

考虑使用提示管理（如果适用）。一旦有多人编辑提示，或者您希望非工程师在不部署的情况下进行迭代，提示管理就显得尤为重要。许多团队可能永远不需要它——如果您本来就通过代码发布提示更改，那么在您的代码仓库中添加一个prompts.py文件就足够了。

第三阶段：你正在扩展规模

添加漂移监控。模型会变化（尤其是在使用最新版本的 API 时）。输入也会变化。您的评估需要与时俱进。跟踪质量评分随时间的变化，并在出现回归时发出警报。

添加成本优化工作流程。例如，将更简单的请求路由到更便宜的模型，尽可能缓存响应，以及识别消耗预算的用户或提示。

添加治理功能。如果您面向企业客户销售产品，则需要诸如个人身份信息 (PII) 脱敏、数据驻留、审计日志以及针对高风险输出的人工审核队列等功能。这时，专用工具的价值就体现出来了。

适合“第一天”使用的工具也应该能够支持“以后”的大部分工作，而无需迁移——否则，六个月后你又要重来一遍。

如需对可用工具进行更深入的比较，请参阅我们整理的最佳开源 LLM 可观测性工具。

如果你的产品开发还处于早期阶段，我们针对vibe-coded 应用的最佳分析堆栈指南涵盖了整个分析堆栈，而不仅仅是 AI 部分。

为什么 PostHog 非常适合这项工作

既然这是我们的博客，那就简单介绍一下：

PostHog 的 AI 可观测性功能涵盖了以上所有方面，其免费套餐（每月 10 万个事件）足以满足您远超 MVP 的需求。您将获得：

使用围绕 OpenAI、Anthropic 和其他提供商的小型 SDK 封装进行追踪
按模型、用户和功能划分的成本、延迟和令牌跟踪
以法学硕士为评判员和人工审核的评估
错误跟踪与跟踪信息同步，因此 AI 特有的故障（工具调用、解析错误、循环终止）会显示在导致这些故障的调用旁边。
通过版本控制、运行时获取和回滚实现快速管理
互联产品分析——用户 ID 保持一致，因此您可以将 AI 使用情况与用户留存率、转化率和流失率关联起来。
会话回放和跟踪记录，让您可以准确地看到模型出现异常行为时用户正在执行的操作。
一个MCP 服务器，允许您在迭代过程中直接从 Claude 代码或游标查询跟踪、成本和评估结果。

如果您想体验一下，可以免费开始——无需信用卡。

如果您不想进行任何手动设置， PostHog Wizard可以为您处理各种检测工作。

只需将一条命令粘贴到 Cursor 或 Claude Code 中，它就能检测你的框架，安装正确的 SDK，封装你的客户端，并在几分钟内获取跟踪、成本数据和错误信息。

常见问题解答

AI可观测性与常规APM有何不同？

APM 工具可以告诉你代码是否正在运行以及运行速度如何。它们可以看到你向 OpenAI 发起了 API 调用并收到了响应。但它们无法看到模型返回了什么结果，也无法判断结果是否理想，更无法得知此次调用的成本。

AI 可观测性补充了缺失的一层：通话内容、输出质量以及 LLM 使用的经济效益。

我第一天就需要评估吗？

不。在MVP规模下，人工审核比自动评估更有效。每天打开一次跟踪列表，随机阅读10-20条输出，并做好笔记。这样做一周，你对产品“好”的定义就会比任何评分标准都更了解。

一旦无法跟上工作量，就应该设置自动评估。

作为一名独立创始人，我应该预计在可观测性方面投入多少资金？

对于大多数MVP来说：几乎不需要任何费用；即使用户只有几千，通常也可以继续使用免费或低价的方案。真正花钱的是LLM（生命周期管理）本身的呼叫——这正是为什么你需要从一开始就进行成本跟踪的原因。

如果我不借助框架，直接调用 OpenAI 或 Anthropic 会怎么样？

这其实是最简单的情况。大多数可观测性工具都封装了 OpenAI/Anthropic SDK，可以自动捕获所有信息。你不需要 LangChain 或任何其他框架就能获得完整的可观测性。

我是否需要单独的工具来进行人工智能可观测性和产品分析？

你可以使用不同的工具，但你会失去最有价值的洞察——例如你的 AI 功能是否真的能提高用户留存率或转化率。

捆绑式平台（ PostHog就是一个明显的例子）在两者之间共享用户模型，因此您可以提出诸如“使用 AI 功能的用户是否会停留更长时间？”之类的问题，而无需将数据源拼接在一起。

我应该何时从免费套餐切换到付费套餐？

当触发以下三个条件之一时：

您的活动数量已超过免费套餐限额。
你需要一项仅限付费用户使用的功能（通常是单点登录、欧盟居民身份、更长的用户保留期）。
你需要有服务级别协议 (SLA) 才能向企业交付产品。

否则，免费套餐在 PMF 之后可能也能很好地运行。

可观察性和评估之间有什么区别？

可观测性关注的是发生了什么——轨迹、成本、延迟、错误。它是描述性的。评估关注的是发生的事情是否良好——根据质量标准对输出进行评分。它是规范性的。评估的前提是具备可观测性：你无法对看不到的输出进行评分。

原文： https://posthog.com/blog/ai-observability-for-mvps