Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

最小可行人工智能可观测性:发布第一个人工智能功能后需要设置哪些内容

Posted on 2026-06-02

市面上很多关于“LLM可观测性”的内容都是为大规模运行生产级AI的团队准备的:企业级治理、复杂的评估流程、专业的AI平台工程师。如果你已经具备这些条件,这些内容当然很有用;但如果你只是在周二发布了第一个AI功能,这些内容就显得过于复杂了。

本指南面向另一半用户——小型团队、氛围程序员和个人创始人,他们的应用程序中只有几个代理或LLM通话,没有数据团队,也不知道从哪里开始进行AI可观测性开发。

答案不是把所有东西都设置好,而是设置好最低限度的东西,以免措手不及,跳过那些暂时不会带来回报的东西,随着产品的发展逐步增加深度。

这就是它在实践中的样子。

什么是人工智能可观测性?

AI 可观测性(通常与LLM 可观测性和LLM 分析互换使用)是指监控应用程序 AI 功能内部正在发生的事情的实践:您发送的提示、您收到的响应、调用需要多长时间、调用成本是多少以及输出是否良好。

传统的APM工具( Datadog或New Relic)并非为此而设计。它们可以告诉你对OpenAI的API调用成功返回了200状态码,但它们无法告诉你响应是错误的,也无法告诉你你的提示信息花费了3倍于正常水平的成本。

人工智能可观测性填补了这一空白。

核心组成部分包括:

  • 跟踪记录——LLM 调用(或调用链)的完整记录,包括输入、输出、模型、参数和时间。
  • 成本和令牌跟踪——按模型、用户或功能细分每次调用的成本。
  • 评估(evaluations) ——衡量产出质量的方法,而不仅仅是衡量产出是否成功。
  • 提示管理——无需重新部署代码即可对提示进行版本控制和迭代
  • 反馈循环——捕获用户对人工智能输出的信号(点赞/点踩、重试、放弃)。

你不需要第一天就拥有所有这些。大多数MVP只需要其中两项。

我的MVP为什么需要可观测性?

以下三个原因,按忽略它们带来的痛苦程度排序:

  1. AI 功能会消耗大量资金,而且往往悄无声息地增加——相信我们,我们深有体会。一个简单的重试循环错误,或者一个提示信息长度翻倍,就可能在一夜之间耗尽每日 API 预算。你不会在传统的分析数据中看到这一点,但你会在每月账单上看到它。
  2. AI故障看起来就像代码运行正常一样。你的函数返回了一个字符串,但这个字符串是错误的。没有异常,没有错误日志,监控中也没有任何警告——用户只是在阅读一些莫名其妙的内容。你需要一种能够捕获这种故障的方法,而不是“等着看有人在推特上狠狠吐槽你的聊天机器人”。
  3. 你无法改进你看不见的东西。当用户说“AI 做了些奇怪的事情”时,“奇怪”并不是一个可以调试的信息。没有跟踪记录,你只能猜测。

好消息是,AI 可观测性的第一个版本很容易设置,而且大多数工具的免费层级足以满足您超过一千名用户的需求。

第一天需要准备什么

三件事,所有这些都可以在一个下午内完成连接(特别是如果您使用 PostHog,因为Wizard可以为您完成所有繁重的工作)。

1. 追踪每一次LLM调用

这是其他一切的基础。对于每次调用,都要捕获完整的输入(提示符+上下文+参数)、完整的输出、使用的模型、延迟和令牌计数。

您可以使用这些数据来调试其他所有问题:成本问题、延迟问题、质量投诉、奇怪的输出。

如果你从本指南中什么都记不住,那就记住设置跟踪。

大多数LLM可观测性工具通过在OpenAI或Anthropic客户端外封装一个小型SDK来处理这个问题。只需初始化一次封装后的客户端,即可像使用普通SDK一样使用它,每次调用都会自动记录日志。

2. 成本跟踪

追踪设置完成后,成本追踪几乎是免费的——您的工具会根据令牌计数和模型计算每次调用的成本。您真正需要做的是设置警报,以便在出现异常情况时收到通知。

至少:

  • 当每日支出超过预期基准值一定倍数(例如,7 天滚动平均值的 2 倍)时,系统会发出警报。
  • 按模型细分,这样您就可以发现何时调用的是gpt-5.5而不是gpt-5.4-mini ,例如
  • 按用户细分,这样就不会因为一个超级用户(或一个滥用案例)而导致利润率大幅下降。

相信我们:支付过高价格的风险并非假设。

当 PostHog 团队深入分析我们自己的 AI 代理(PostHog Wizard)的成本时,我们发现它在三个意想不到的地方消耗了大量代币:重复读取已读取的文件、在上下文压缩后重复执行工作,以及生成无法可靠终止的子代理。我们之所以能发现这些问题,是因为成本数据就存储在AI 可观测性中。如果没有这些数据,我们可能就只能支付这笔巨额费用然后继续前进了。

3. 错误捕获

LLM 调用失败的方式比常规 API 调用更多样。除了常见的失败原因(速率限制、超时、网络错误)之外,您还会遇到以下情况:

  • 工具调用失败——代理尝试调用某个工具,但该工具出错或返回了格式错误的数据,并且循环可能已经恢复,也可能尚未恢复。
  • 代理循环无法终止——模型不断调用自身、生成子代理或拒绝退出。
  • 结构化输出解析失败——模型返回了有效的文本,但您期望的是结构化数据,而实际返回的是无效的 JSON。
  • 令牌/上下文限制错误——提示或对话超出范围,通常是无声的。
  • 内容策略违规——提供商已阻止响应,您的代码需要妥善处理。

你需要将所有这些错误都显示出来。如果你已经为应用程序的其他部分设置了错误跟踪,请确保 LLM 错误也流入其中。

如果没有,请添加。

追踪信息、错误信息和日志的结合,是调试 AI 功能而不至于崩溃的关键。错误信息告诉你哪里出了问题;追踪信息告诉你智能体在出错时正在做什么;日志(工具调用、中间状态、决策)告诉你出错的原因。

稍后添加的内容

以下是大多数MVP阶段团队容易过度投入的地方。这些做法本身都是合理的,但当你的用户数量不足一千,且只有一个AI功能时,可能就不是应该把时间花在这些事情上的最佳时机。

复杂评估套件

你不需要从五个不同的质量维度设置15项评估标准,也不需要一群法学硕士级别的评委互相交叉审核。你甚至可能都不需要自动化评估。

评估最终是必不可少的,但在MVP阶段往往为时尚早。为什么?因为:

  • 您的流量不足以使自动评分在统计学上具有意义。
  • 你还不清楚你的产品“好”的标准是什么,所以你制定的任何评价标准都可能不准确。
  • 在这个规模下,与其依赖评估,不如直接阅读输出结果。每周花30分钟随机查看一些跟踪记录,你会发现比任何评估标准都多的问题。

当世代数多到你无法全部阅读时(通常每天几百代),添加自动评估功能。

准备就绪后,我们的AI 代理测试入门指南将带您了解最小评估套件的实际构成——来自真实用户查询和最近错误的数量数据集、一两个廉价的基于代码的评估器、一个 LLM 作为主观标准的评判者,以及定期的跟踪审查程序。

A/B 测试提示变体

提示实验功能非常棒,我们刚刚推出了测试版——您可以并排测试多达 10 个提示版本,成本、延迟和评估通过率作为内置指标。

甚至还有一个代理提示,你可以将其粘贴到 Cursor 或 Claude Code 中,它会为你连接整个实验;我们已经在它上面运行我们自己的实验了。

也就是说:这是一个需要逐步完善的功能,而不是一开始就应该使用的功能。在流量足够大到足以检测出不同版本之间的差异之前,急于进行实验是毫无意义的。如果你每天只有 50 个用户,那么即使质量提升 10%,也需要几个月的时间才能达到统计学意义上的显著性。

在流量达到一定规模之前:先发布感觉更好的提示信息,然后继续进行下一步。跟踪输出结果,以便在出现问题时可以回滚。等到每天有几百代的迭代次数,并且有了真正值得验证的假设时,再回头处理这个问题。

重型即时管理基础设施

如果团队中只有一个人负责编写提示,并且你通过常规的代码部署来发布提示更改,那么你暂时不需要单独的提示管理系统。在你的代码仓库中添加一个prompts.py文件即可。

当出现以下情况时,提示管理就显得尤为重要:(a) 多人编辑提示;(b) 希望非工程师在不部署的情况下迭代提示;(c) 希望独立于代码对提示进行版本控制和回滚。这些情况通常不会在项目初期就出现。

定制的可观测性基础设施

别这么做。你会花一个月时间做出一个只有现有产品一半好的东西,然后把剩下的宝贵空闲时间都花在维护它上,而不是发布你的产品。

你以后总可以迁移,但实际上你不需要(而且,迁移通常很糟糕,所以省省你的麻烦吧)。

到处都有免费套餐——PostHog每月免费提供 10 万个 LLM 事件,Langfuse 可以免费自托管, Datadog 的免费套餐包含每月 4 万个 LLM span……不妨试试其中一个。

要深入了解免费和自托管选项,请参阅我们对最佳开源 LLM 可观测性工具的比较。

漂移检测、治理仪表盘、AI红队演练流程

所有功能都很酷。但所有这些在MVP阶段都不是必需的。

先把这些归档到“等有了真正的AI运维职能后再重新审视的内容”里。

分阶段速查表

随着产品日趋成熟,对可观测性的要求也会提高。以下是大致的分层顺序。

第一阶段:您拥有可观的流量(每天几百代)

添加自动化评估。现在你不可能读取所有跟踪信息,因此需要一种方法来发现回归问题。首先,尽可能使用确定性的、基于代码的评估——例如简单的检查,如“代理调用了正确的工具”、“输出中没有出现禁用关键字”、“没有引发错误”或与预期响应的莱文斯坦距离。这些方法成本低、速度快,而且不会给你的测试流程增加对 LLM 的依赖。只有当评判标准确实非常主观,以至于代码无法捕捉时(例如语气、帮助性、幻觉检测),才应该使用LLM 作为评判标准。在生产环境跟踪样本上运行这两种方法。

添加用户反馈收集功能。即使是对 AI 输出的简单点赞/踩,对调试来说也是宝贵的资源。将该信号与跟踪数据结合起来,您可以快速找到用户不喜欢的方面——PostHog的调查功能可在应用内处理这些操作,并将回复与同一用户关联起来。

添加会话回放功能。观察用户对 AI 输出的实际反应,可以揭示一些指标无法提供的信息。他们是否重试?编辑?复制粘贴?关闭标签页?如果您还没有这项功能,请参阅我们关于最佳会话回放工具的指南。

第二阶段:您拥有多个人工智能功能和一个小型团队。

将评估转移到线上。离线评估仅涵盖您定义的输入。 在线评估会针对实际生产环境中的部分数据(5-10% 就足够了)运行,从而发现测试集未曾预料到的问题。尽可能使用低成本的基于代码的评估工具,而对于主观性较强的部分,则使用成本更低的 LLM 评判器。

建立一套跟踪审查流程。PostHog负责 AI 功能的团队每周都会进行一次“跟踪时间”活动,他们会查看标记的跟踪记录(低反馈评分、错误峰值、支持工单、异常值集群),并将这些模式转化为新的评估方法。下一代评估人员正是在这里诞生的。

将 LLM 数据与产品分析相结合。 “使用过我们 AI 功能的用户留存率提高了一倍”这类洞察足以证明整笔投资的合理性。要做到这一点,您的 LLM 可观测性需要与产品分析共享用户模型——这也是为什么捆绑式工具往往在这个阶段更胜一筹的原因之一。

考虑使用提示管理(如果适用)。一旦有多人编辑提示,或者您希望非工程师在不部署的情况下进行迭代,提示管理就显得尤为重要。许多团队可能永远不需要它——如果您本来就通过代码发布提示更改,那么在您的代码仓库中添加一个prompts.py文件就足够了。

第三阶段:你正在扩展规模

添加漂移监控。模型会变化(尤其是在使用最新版本的 API 时)。输入也会变化。您的评估需要与时俱进。跟踪质量评分随时间的变化,并在出现回归时发出警报。

添加成本优化工作流程。例如,将更简单的请求路由到更便宜的模型,尽可能缓存响应,以及识别消耗预算的用户或提示。

添加治理功能。如果您面向企业客户销售产品,则需要诸如个人身份信息 (PII) 脱敏、数据驻留、审计日志以及针对高风险输出的人工审核队列等功能。这时,专用工具的价值就体现出来了。

适合“第一天”使用的工具也应该能够支持“以后”的大部分工作,而无需迁移——否则,六个月后你又要重来一遍。

如需对可用工具进行更深入的比较,请参阅我们整理的最佳开源 LLM 可观测性工具。

如果你的产品开发还处于早期阶段,我们针对vibe-coded 应用的最佳分析堆栈指南涵盖了整个分析堆栈,而不仅仅是 AI 部分。

为什么 PostHog 非常适合这项工作

既然这是我们的博客,那就简单介绍一下:

PostHog 的 AI 可观测性功能涵盖了以上所有方面,其免费套餐(每月 10 万个事件)足以满足您远超 MVP 的需求。您将获得:

  • 使用围绕 OpenAI、Anthropic 和其他提供商的小型 SDK 封装进行追踪
  • 按模型、用户和功能划分的成本、延迟和令牌跟踪
  • 以法学硕士为评判员和人工审核的评估
  • 错误跟踪与跟踪信息同步,因此 AI 特有的故障(工具调用、解析错误、循环终止)会显示在导致这些故障的调用旁边。
  • 通过版本控制、运行时获取和回滚实现快速管理
  • 互联产品分析——用户 ID 保持一致,因此您可以将 AI 使用情况与用户留存率、转化率和流失率关联起来。
  • 会话回放和跟踪记录,让您可以准确地看到模型出现异常行为时用户正在执行的操作。
  • 一个MCP 服务器,允许您在迭代过程中直接从 Claude 代码或游标查询跟踪、成本和评估结果。

如果您想体验一下,可以免费开始——无需信用卡。

如果您不想进行任何手动设置, PostHog Wizard可以为您处理各种检测工作。

只需将一条命令粘贴到 Cursor 或 Claude Code 中,它就能检测你的框架,安装正确的 SDK,封装你的客户端,并在几分钟内获取跟踪、成本数据和错误信息。

常见问题解答

AI可观测性与常规APM有何不同?

APM 工具可以告诉你代码是否正在运行以及运行速度如何。它们可以看到你向 OpenAI 发起了 API 调用并收到了响应。但它们无法看到模型返回了什么结果,也无法判断结果是否理想,更无法得知此次调用的成本。

AI 可观测性补充了缺失的一层:通话内容、输出质量以及 LLM 使用的经济效益。

我第一天就需要评估吗?

不。在MVP规模下,人工审核比自动评估更有效。每天打开一次跟踪列表,随机阅读10-20条输出,并做好笔记。这样做一周,你对产品“好”的定义就会比任何评分标准都更了解。

一旦无法跟上工作量,就应该设置自动评估。

作为一名独立创始人,我应该预计在可观测性方面投入多少资金?

对于大多数MVP来说:几乎不需要任何费用;即使用户只有几千,通常也可以继续使用免费或低价的方案。真正花钱的是LLM(生命周期管理)本身的呼叫——这正是为什么你需要从一开始就进行成本跟踪的原因。

如果我不借助框架,直接调用 OpenAI 或 Anthropic 会怎么样?

这其实是最简单的情况。大多数可观测性工具都封装了 OpenAI/Anthropic SDK,可以自动捕获所有信息。你不需要 LangChain 或任何其他框架就能获得完整的可观测性。

我是否需要单独的工具来进行人工智能可观测性和产品分析?

你可以使用不同的工具,但你会失去最有价值的洞察——例如你的 AI 功能是否真的能提高用户留存率或转化率。

捆绑式平台( PostHog就是一个明显的例子)在两者之间共享用户模型,因此您可以提出诸如“使用 AI 功能的用户是否会停留更长时间?”之类的问题,而无需将数据源拼接在一起。

我应该何时从免费套餐切换到付费套餐?

当触发以下三个条件之一时:

  1. 您的活动数量已超过免费套餐限额。
  2. 你需要一项仅限付费用户使用的功能(通常是单点登录、欧盟居民身份、更长的用户保留期)。
  3. 你需要有服务级别协议 (SLA) 才能向企业交付产品。

否则,免费套餐在 PMF 之后可能也能很好地运行。

可观察性和评估之间有什么区别?

可观测性关注的是发生了什么——轨迹、成本、延迟、错误。它是描述性的。评估关注的是发生的事情是否良好——根据质量标准对输出进行评分。它是规范性的。评估的前提是具备可观测性:你无法对看不到的输出进行评分。

原文: https://posthog.com/blog/ai-observability-for-mvps

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • A List Apart
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Alin Panaitiu
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brent Simmons
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Pieter Levels
  • PostHog
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Slava Akhmechet
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2026 搞英语 → 看世界 | Design: Newspaperly WordPress Theme