AI 时代的新可观测性:不只看系统崩没崩,还要看模型有没有胡说
文章正文
背景:传统可观测性为什么不够
Nic 把 New Relic 16 年的演进复盘为三段式:
- Instrumentation 时代(~2008-2012):核心问题是"怎么给更多语言做插桩",Ruby / Java / .NET / Python 一路铺过去。很快数据量大到处理不过来。
- Data Platform 时代(~2013-2017):推出 NRDB,核心价值是"你可以问那些你原本不知道该问的问题"——数据先全收进来,再探索。这一阶段撑起了 dashboards / data explorer / alerts 一整套能力。
- Intelligence 时代(2023 至今):关键不再是"你能问什么",而是系统主动告诉你"你应该问什么、该看什么"。
但 Nic 自己也承认:dashboards 变漂亮了、alerts 变多了、查询语言从 Tcl/Tk 换成 NRQL,但本质上和 90 年代做的事没区别——只是从 3 个图变成 300 个图。
没有任何一个 dashboard 小到可以让你"看见一切"。当我们意识到这一点时,就明白了:以 dashboards 和 alerts 为核心的 observability,已经走到尽头了。
dashboard 和 alert 只是工具,不是目标。这是 New Relic 这几年最大的认知转变。
核心维度升级
文章把"AI 时代的可观测性"拆成两个方向:
方向一:AI for Observability
用 AI 增强传统监控能力。三层技术栈必须叠加:
| 层级 | 能力 | 典型场景 |
|---|---|---|
| 统计方法 | signal analysis、baseline deviation、anomaly detection | 先把 petabyte 数据从 10 亿级筛到万级 |
| Machine Learning | hyperparameter 自动调整告警基准 | MLOps,把"内存 80% 报警"优化为 86.2% 动态阈值 |
| Neural Networks (LLM) | 模式理解、模糊判断、推理归因 | 把"可疑片段"交给 LLM 判断是否真有意义 |
关键工程化要求:不能直接把 petabyte 级数据喂给 LLM,成本不可承受。必须先统计降噪、再 LLM 总结。同时需要三样基础设施:
- 海量数据输入
- 结构化数据(指标↔系统映射)
- 空间+时间维度的图谱关联(用户→服务→基础设施)
方向二:Observability for AI
当 AI 本身成为系统的一部分,传统三支柱不够用。文章明确指出要新增的"AI Golden Signals":
| 维度 | 说明 |
|---|---|
| Token 使用量 | 输入/输出 token 分项统计 |
| 成本 | 按请求、按用户、按 feature 归因 |
| 响应质量 | 答案是否正确、是否符合预期 |
| 用户情绪 (sentiment) | 用户对回答的反馈 |
| 幻觉率 | 是否在胡说,趋势是涨是跌 |
| 输出漂移 (drift) | 模型升级后行为是否变化(如 Sonnet 4.5 → 4.6) |
| 采样评估 | 每 1000 个请求抽 1 个,用更强模型评判 |
Nic 举了个很有画面感的比喻:
你实际上是创建了一个由一群不太靠谱的员工组成的"虚拟呼叫中心"。你需要一个"主管",在走廊里来回巡视,确保这些 AI Agents 没在胡说八道。
真正的 source of truth
文章反复强调一个反共识:业务指标才是终极观测对象,不是 CPU、不是 latency。
2000 年初在创业公司,办公室角落有台电视只显示一个图:每分钟的销售额。系统出问题,这个数字一定会掉。这个图不会告诉你"哪里坏了",那是 alerts 的工作。这个图回答的是更重要的问题:你的业务目标有没有达成?
电商看成交、社交看互动——不管栈多复杂,source of truth 始终是业务本身。
业界方案对比
| 方案 | 优势 | 局限 |
|---|---|---|
| New Relic AI Monitoring | 完整的 APM 全栈 + AI 黄金信号;与 OpenTelemetry 深度集成;提供 opinionated guidance(默认判断) | 商业 SaaS,私有化部署贵;早期版本基于自家 agent(偏向 New Relic) |
| LangSmith | LangChain 官方 tracing;prompt 版本管理体验最好;原生支持 LangGraph 多 agent 评估 | 强绑定 LangChain 生态;非 LangChain 项目集成成本高 |
| Langfuse | 开源、可自托管;trace + eval + prompt management 一体;OTel 兼容 | UI 还在迭代;大规模数据下需要自己运维存储 |
| Helicone | 轻量 proxy 模式,零代码改动接入;按请求级别记录 token/cost/latency | 评估能力较弱,深度依赖第三方 LLM-as-judge |
| Arize Phoenix | 开源 + 强大的 eval/drift 检测;支持 embedding drift;学术背景强 | 自托管运维成本不低;不是全链路 APM,更偏 ML observability |
| Datadog LLM Observability | 与 Datadog 既有基础设施无缝衔接;trace 上下文传递完整;企业级合规 | 价格最贵;和 Datadog 生态深度绑定,迁出成本高 |
| OpenTelemetry GenAI | 厂商中立的标准;社区驱动;未来事实标准 | 标准刚起步,工具链成熟度参差不齐 |
工程化关键点
文章里能直接落到工程实践的关键点:
- 分层降噪再上 LLM:统计方法 → ML → LLM,三层叠加,不要直接上 LLM 啃原始数据。
- 告警疲劳的两层治理:
- 第一层:用 intelligence 在通知人之前过滤 alert(像 on-call 工程师的直觉——6 个系统同时报才会立刻冲键盘)。
- 第二层:反向优化 alert 本身——哪些总是一起触发?哪些从来不可操作?哪些只是闪一下就消失?
- 结构化关联是根因分析的前提:用户→浏览器→服务→基础设施的图谱关系,缺一不可。
- "5 分钟拿到价值"是产品目标:刚上线系统就要能看到"Sonnet 4.5 升级到 4.6 后购买流程回答变奇怪了"这种关键信息。
- tooling 厂商必须提供 opinionated guidance:不能只说"你想监控什么都可以",必须告诉新手团队"哪些信号最重要、合理范围在哪"。
- 数据隐私是 LLM-as-judge 的硬约束:评估数据要发给外部吗?发多少?这是设计评估链路时必须前置考虑的问题。
- On-call 会消失:当检测、响应、修复都发生在机器尺度(毫秒级),on-call 这个概念会慢慢消失,就像现在没人觉得"程序崩溃自动重启"是技术能力一样。
- 抽象层持续上移:编译器 bug、hex editor 调试这些底层挣扎已经被腾出去了,腾出来的脑力应该用于系统架构、数据流、petabyte 级数据治理。
- 永远记得业务指标:任何技术栈最后都要回答"业务目标有没有达成"这个问题。
Rainsho 视角
这篇 New Relic 自家战略官的访谈,本质是给商业 APM 卖"AI observability"这个新概念背书——把它当结论看要打折。但抛开商业意图,文章里有几个真正值得工程团队停下来想一想的判断:(1) dashboard + alert 范式走到尽头不是预言,是已经发生的事实,Kubernetes 集群动辄数百节点数千 Pod,"加更多 alert"的反身性已经开始反噬响应速度;(2) AI 系统的可观测性核心难点是非确定性——同一 prompt 两次返回不一样,传统"是否 2xx + 延迟 P99"完全失效,token / cost / 语义质量 / drift 这套新维度是必须补的,不是锦上添花;(3) 但要警惕厂商刻意制造的新焦虑——很多团队连 trace 上下文都没串通,就开始堆 LLM-as-judge,本质是把 observability 的债务从"告警"转移到"评估"上。我自己的判断是:先把 OpenTelemetry 那一层 trace + token + cost 打通,比选 LangSmith 还是 Langfuse 重要 10 倍。标准先于选型,语义质量评估是最后才需要上的高级货,不是一上来就该花精力的地方。