AI 产品指标看板设计
AI 导读
AI 产品指标看板设计 从 DAU 到 Cost-per-Query:构建 AI 产品的数据可观测体系 为什么 AI 产品需要专属指标体系 传统 SaaS 产品的核心指标是 DAU、留存率、转化率。AI 产品除了这些,还必须追踪模型质量和推理成本两个独特维度。一个 DAU 增长 50% 但推理成本增长 200% 的 AI 产品,可能正在走向死亡。 本文覆盖指标设计、看板布局、告警阈值、数据管道和...
AI 产品指标看板设计
从 DAU 到 Cost-per-Query:构建 AI 产品的数据可观测体系
为什么 AI 产品需要专属指标体系
传统 SaaS 产品的核心指标是 DAU、留存率、转化率。AI 产品除了这些,还必须追踪模型质量和推理成本两个独特维度。一个 DAU 增长 50% 但推理成本增长 200% 的 AI 产品,可能正在走向死亡。
本文覆盖指标设计、看板布局、告警阈值、数据管道和 Grafana/Metabase 落地实践。
一、AI 产品指标分层框架
1.1 四层指标模型
┌──────────────────────────────────────────────────┐
│ Layer 1: 业务指标(Business Metrics) │
│ DAU/MAU, Revenue, Conversion, Churn │
│ -> 回答: 产品有没有商业价值? │
├──────────────────────────────────────────────────┤
│ Layer 2: 产品指标(Product Metrics) │
│ Session Duration, Feature Usage, Task Success │
│ -> 回答: 用户在用什么?用得好吗? │
├──────────────────────────────────────────────────┤
│ Layer 3: AI 质量指标(AI Quality Metrics) │
│ Accuracy, Latency, Hallucination Rate, CSAT │
│ -> 回答: AI 够好吗?在变好还是变差? │
├──────────────────────────────────────────────────┤
│ Layer 4: 基础设施指标(Infra Metrics) │
│ Cost/Query, GPU Util, Error Rate, Throughput │
│ -> 回答: 系统健康吗?钱花得值吗? │
└──────────────────────────────────────────────────┘
1.2 核心指标矩阵
| 指标 | 层级 | 采集方式 | 刷新频率 | 健康阈值 |
|---|---|---|---|---|
| DAU/MAU | L1 | 事件追踪 | 实时 | DAU/MAU > 25% |
| 付费转化率 | L1 | 支付事件 | 日 | > 3% |
| 月流失率 | L1 | 订阅状态 | 月 | < 5% |
| 会话完成率 | L2 | 事件追踪 | 实时 | > 80% |
| 功能采纳率 | L2 | 事件追踪 | 周 | Top 3 功能 > 60% |
| AI 准确率 | L3 | 人工评审 + 自动评估 | 日 | > 90% |
| 平均延迟 | L3 | APM | 实时 | P95 < 5s |
| 幻觉率 | L3 | 自动检测 + 人工抽样 | 日 | < 3% |
| CSAT | L3 | 用户反馈 | 周 | > 4.0/5.0 |
| Cost/Query | L4 | 计费 API | 实时 | < ¥0.10 |
| GPU 利用率 | L4 | 监控 Agent | 实时 | 60-85% |
| 错误率 | L4 | 日志聚合 | 实时 | < 0.5% |
二、看板布局设计
2.1 Executive Dashboard(高管视图)
一屏展示最关键的 6-8 个指标,30 秒内看完全局:
┌─────────────────────────────────────────────────────────┐
│ AI Product Executive Dashboard 2026-02-28 │
├─────────────┬───────────────┬───────────────────────────┤
│ DAU │ Revenue │ AI Quality Score │
│ 12,847 │ ¥485,200 │ ████████░░ 82/100 │
│ +12% WoW │ +8% MoM │ +3 pts MoM │
├─────────────┼───────────────┼───────────────────────────┤
│ Retention │ Cost/Query │ CSAT │
│ D7: 45% │ ¥0.067 │ 4.2 / 5.0 │
│ D30: 28% │ -15% MoM │ +0.1 MoM │
├─────────────┴───────────────┴───────────────────────────┤
│ [7-Day Trend: DAU] ▁▂▃▃▅▆█ │
│ [7-Day Trend: Rev] ▃▃▄▅▅▆▇ │
│ [7-Day Trend: CSAT] ▅▅▆▆▆▇▇ │
├─────────────────────────────────────────────────────────┤
│ Active Alerts: 1 WARNING (P95 latency > 4s) │
└─────────────────────────────────────────────────────────┘
2.2 Operations Dashboard(运营视图)
聚焦用户行为和产品使用情况:
┌─────────────────────────────────────────────────────────┐
│ Operations Dashboard │
├─────────────────────────────────────────────────────────┤
│ │
│ [User Funnel] │
│ Visit -> Signup -> Activate -> Retain -> Pay │
│ 100% -> 22% -> 68% -> 45% -> 8% │
│ │
│ [Feature Usage Heatmap] │
│ Chat: ████████████████ 82% │
│ Doc Analysis: ██████████░░░░░░ 55% │
│ Report Gen: ████████░░░░░░░░ 42% │
│ API Access: ████░░░░░░░░░░░░ 18% │
│ │
│ [Session Quality Distribution] │
│ Excellent (>0.8): ████████░░ 35% │
│ Good (0.5-0.8): ██████████ 45% │
│ Poor (<0.5): ████░░░░░░ 20% │
│ │
│ [Top User Queries This Week] │
│ 1. 发票合规检查 (2,847) │
│ 2. 税率计算 (1,923) │
│ 3. 报表生成 (1,456) │
│ │
└─────────────────────────────────────────────────────────┘
2.3 AI Quality Dashboard(模型质量视图)
这是 AI 产品独有的看板:
┌─────────────────────────────────────────────────────────┐
│ AI Quality Dashboard │
├─────────────────────────────────────────────────────────┤
│ │
│ [Model Performance by Category] │
│ Category Accuracy Latency Hallucination │
│ Tax Classification 94.2% 1.2s 1.8% │
│ Invoice Parsing 91.7% 2.3s 2.5% │
│ Compliance Check 88.5% 3.8s 3.2% │
│ Report Generation 86.3% 5.1s 4.1% │
│ │
│ [Quality Trend (30 Days)] │
│ Accuracy: ▁▂▂▃▃▃▄▄▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇▇█████ │
│ Latency: █▇▇▆▆▆▅▅▅▅▄▄▄▄▃▃▃▃▃▃▃▂▂▂▂▂▂▂▂▁ │
│ │
│ [User Feedback Distribution] │
│ Thumbs Up: ████████████ 72% │
│ Thumbs Down: ████░░░░░░░░ 15% │
│ Regenerated: ███░░░░░░░░░ 13% │
│ │
│ [Hallucination Detection] │
│ Auto-detected: 45 / day │
│ User-reported: 12 / day │
│ False positive: 8% │
│ │
└─────────────────────────────────────────────────────────┘
三、告警阈值设计
3.1 分级告警策略
| 级别 | 条件 | 通知方式 | 响应时间 |
|---|---|---|---|
| P0 Critical | 服务完全不可用 / 数据泄露 | 电话 + 短信 + 钉钉 | 5 分钟 |
| P1 High | 准确率骤降 > 10% / 错误率 > 5% | 短信 + 钉钉 | 15 分钟 |
| P2 Medium | 延迟 P95 > 8s / Cost 异常 > 50% | 钉钉 + 邮件 | 1 小时 |
| P3 Low | 指标轻微偏离 / 趋势预警 | 邮件 + 日报 | 24 小时 |
3.2 AI 专属告警规则
# alerting-rules.yaml
alerts:
- name: accuracy_drop
metric: ai.accuracy.rolling_24h
condition: decrease > 5% compared to 7-day avg
severity: P1
message: "AI accuracy dropped {value}% in last 24h"
- name: hallucination_spike
metric: ai.hallucination.rate.1h
condition: value > 5%
severity: P1
message: "Hallucination rate spiked to {value}%"
- name: cost_anomaly
metric: infra.cost_per_query.1h
condition: value > 2x of 7-day avg
severity: P2
message: "Cost per query anomaly: {value} (avg: {avg})"
- name: latency_degradation
metric: ai.latency.p95.5m
condition: value > 8000 # milliseconds
severity: P2
message: "P95 latency: {value}ms"
- name: feedback_negative_surge
metric: ai.feedback.negative_rate.1h
condition: value > 25%
severity: P2
message: "Negative feedback rate: {value}%"
- name: model_drift
metric: ai.distribution.kl_divergence.daily
condition: value > 0.15
severity: P3
message: "Model input distribution drift detected: KL={value}"
四、数据管道架构
4.1 端到端数据流
┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐
│ Client │ │ API │ │ Stream │ │ Storage │
│ SDK │───>│ Gateway │───>│ Kafka │───>│ ClickH. │
│ │ │ │ │ │ │ │
│ Events: │ │ Enrich: │ │ Topics: │ │ Tables: │
│ - click │ │ - user │ │ - events│ │ - events│
│ - query │ │ - geo │ │ - metrics│ │ - metrics│
│ - feedback│ │ - device│ │ - logs │ │ - agg │
│ - timing │ │ - session│ │ │ │ │
└──────────┘ └──────────┘ └──────────┘ └──────────┘
│
▼
┌──────────────┐
│ Dashboard │
│ Grafana / │
│ Metabase │
└──────────────┘
4.2 事件追踪 Schema
interface AIEvent {
// Standard fields
event_id: string; // UUID
timestamp: string; // ISO 8601
user_id: string;
session_id: string;
event_type: string; // "query" | "feedback" | "action" | "error"
// AI-specific fields
model_id: string; // "gpt-4" | "claude-3" | "custom-v2"
prompt_tokens: number;
completion_tokens: number;
latency_ms: number;
cost_cents: number; // Cost in cents (USD/RMB)
// Quality fields
confidence_score: number; // 0.0 - 1.0
hallucination_detected: boolean;
user_feedback: "positive" | "negative" | "neutral" | null;
regeneration_count: number;
// Context
feature: string; // "chat" | "doc_analysis" | "report"
input_type: string; // "text" | "file" | "image"
output_type: string; // "text" | "table" | "chart"
// Metadata
metadata: Record<string, unknown>;
}
4.3 聚合查询示例
-- Daily AI quality metrics
SELECT
toDate(timestamp) AS date,
model_id,
feature,
count() AS total_queries,
avg(latency_ms) AS avg_latency,
quantile(0.95)(latency_ms) AS p95_latency,
avg(confidence_score) AS avg_confidence,
countIf(hallucination_detected) / count() AS hallucination_rate,
countIf(user_feedback = 'positive') /
nullIf(countIf(user_feedback IS NOT NULL), 0) AS positive_rate,
sum(cost_cents) / 100.0 AS total_cost_yuan,
sum(cost_cents) / count() / 100.0 AS cost_per_query_yuan
FROM ai_events
WHERE event_type = 'query'
AND timestamp >= today() - INTERVAL 30 DAY
GROUP BY date, model_id, feature
ORDER BY date DESC, total_queries DESC;
五、Grafana 落地实践
5.1 Dashboard 组织结构
Grafana Folder Structure:
AI Product/
├── Executive Overview # 高管看板
├── User & Product Metrics # 用户与产品指标
├── AI Quality Monitoring # AI 质量监控
├── Cost & Infrastructure # 成本与基础设施
└── Alerts & Incidents # 告警与事件
5.2 关键面板配置
{
"dashboard": {
"title": "AI Quality Monitoring",
"panels": [
{
"title": "Accuracy by Feature (7-Day Rolling)",
"type": "timeseries",
"datasource": "ClickHouse",
"targets": [{
"rawSql": "SELECT toStartOfHour(timestamp) AS time, feature, avg(confidence_score) AS accuracy FROM ai_events WHERE timestamp >= now() - INTERVAL 7 DAY GROUP BY time, feature ORDER BY time"
}],
"fieldConfig": {
"defaults": {
"min": 0.7,
"max": 1.0,
"thresholds": {
"steps": [
{ "value": 0.85, "color": "red" },
{ "value": 0.90, "color": "yellow" },
{ "value": 0.95, "color": "green" }
]
}
}
}
},
{
"title": "Cost per Query (Hourly)",
"type": "stat",
"datasource": "ClickHouse",
"targets": [{
"rawSql": "SELECT sum(cost_cents)/count()/100.0 AS cost FROM ai_events WHERE event_type='query' AND timestamp >= now() - INTERVAL 1 HOUR"
}]
}
]
}
}
六、Metabase 业务分析设置
6.1 适用场景对比
| 维度 | Grafana | Metabase |
|---|---|---|
| 定位 | 实时监控 + 告警 | 业务分析 + 自助查询 |
| 用户 | 工程师 / SRE | 产品经理 / 运营 / 管理层 |
| 数据刷新 | 秒级 | 分钟级 |
| 可视化 | 时序图为主 | 表格/漏斗/地图 |
| 告警 | 原生支持 | 有限支持 |
| 自助查询 | 需 SQL | 可视化拖拽 |
| 推荐用法 | L3/L4 指标 | L1/L2 指标 |
6.2 Metabase 核心 Question 配置
Saved Questions:
1. "Daily Active Users Trend"
- Table: user_sessions
- Group by: date, user_type
- Visualization: Line chart
2. "Feature Usage Breakdown"
- Table: ai_events
- Filter: event_type = 'query'
- Group by: feature
- Visualization: Bar chart
3. "Conversion Funnel"
- Custom SQL with CTE
- Steps: Visit -> Signup -> First Query -> 10th Query -> Paid
- Visualization: Funnel
4. "Cost Analysis by Model"
- Table: ai_events
- Group by: model_id, week
- Metrics: total_cost, avg_cost_per_query, total_queries
- Visualization: Pivot table
七、指标驱动决策框架
7.1 常见决策场景
| 场景 | 看什么指标 | 决策标准 |
|---|---|---|
| 是否上线新模型 | Accuracy + Latency + Cost | Accuracy >= 当前, Latency <= 1.5x, Cost <= 2x |
| 是否推广新功能 | Feature Usage + CSAT + Retention Impact | Day 7 Retention 提升 > 2% |
| 是否调整定价 | Conversion + Churn + Revenue | Revenue +15% AND Churn < +2% |
| 是否降级模型 | Cost/Query + Accuracy Drop | Cost 下降 > 30% AND Accuracy 下降 < 3% |
| 是否扩容 | GPU Util + P95 Latency + Error Rate | GPU > 80% 或 P95 > 5s |
7.2 A/B 测试框架
# AI-specific A/B test configuration
AB_TEST_CONFIG = {
"model_comparison": {
"control": "gpt-4-turbo",
"treatment": "claude-3-opus",
"metrics": {
"primary": "user_satisfaction_score",
"secondary": ["accuracy", "latency_p95", "cost_per_query"],
"guardrail": ["hallucination_rate", "error_rate"]
},
"split": 50, # 50/50 split
"min_sample": 1000, # queries per arm
"duration_days": 14,
"success_criteria": {
"primary_lift": 0.05, # 5% improvement
"guardrail_max_increase": 0.01 # No more than 1% increase
}
}
}
总结
AI 产品指标体系的核心原则:
- 四层分明 —— 业务/产品/AI 质量/基础设施各司其职
- AI 独有指标不可缺 —— 准确率、幻觉率、Cost/Query 是 AI 产品的生命线
- 两套系统互补 —— Grafana 管监控告警,Metabase 管业务分析
- 告警分级响应 —— P0 电话叫人,P3 日报提醒,不一刀切
- 数据驱动决策 —— 每个决策场景都有对应的指标组合和判断标准
指标不是目的,决策才是。建设看板的终极目标是让团队在 30 秒内看到问题,5 分钟内定位原因,1 小时内推动修复。
Maurice | [email protected]
深度加工(NotebookLM 生成)
基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客,用于多场景复用
PPT 大纲(5-8 张幻灯片) 点击展开
AI 产品指标看板设计 — ppt
这是一份基于您提供的文章内容提取的 PPT 大纲,共包含 7 张幻灯片,涵盖了从指标框架到落地实践的核心内容:
幻灯片 1:为什么 AI 产品需要专属指标体系
- 传统 SaaS 指标的局限:传统产品主要关注 DAU、留存率和转化率,这在 AI 时代是不够的 [1]。
- 新增核心维度:AI 产品必须额外追踪“模型质量”和“推理成本”这两个独特维度 [1]。
- 潜在的生死危机:如果一个产品 DAU 增长了 50%,但推理成本却增长了 200%,该产品可能正在走向死亡 [1]。
- 目标愿景:构建一个包含指标分层、看板布局、告警阈值和数据管道的完整数据可观测体系 [1]。
幻灯片 2:AI 产品的四层指标模型框架
- L1 业务指标 (Business):回答“产品有没有商业价值?”,核心关注 DAU/MAU、转化率与收入 [1]。
- L2 产品指标 (Product):回答“用户在用什么?用得好吗?”,关注会话时长、功能采纳率和任务成功率 [1]。
- L3 AI 质量指标 (AI Quality):回答“AI 够好吗?”,专属追踪准确率、延迟、幻觉率和用户满意度 (CSAT) [1]。
- L4 基础设施指标 (Infra):回答“系统健康吗?钱花得值吗?”,监控 Cost/Query(单次请求成本)、GPU 利用率和错误率 [1]。
幻灯片 3:核心指标矩阵与健康阈值设定
- 业务与用户阈值:DAU/MAU 比例需保持 > 25%,付费转化率需 > 3% [1, 2]。
- 质量与体验阈值:AI 准确率需维持在 > 90%,同时将幻觉率严格控制在 < 3% [2]。
- 成本与性能阈值:平均延迟 P95 应 < 5s,单次请求成本 (Cost/Query) 应控制在 < ¥0.10 [2]。
- 数据采集手段:结合实时事件追踪、自动评估检测与人工评审抽样进行多维度打分 [1, 2]。
幻灯片 4:三重视角的看板布局设计
- 高管视图 (Executive Dashboard):一屏展示 6-8 个最关键指标,让管理层在 30 秒内看完全局(如 DAU、收入、AI 质量分) [2]。
- 运营视图 (Operations Dashboard):聚焦产品使用情况,包含用户转化漏斗、功能使用热力图和会话质量分布 [3]。
- AI 质量专属视图:按类别展示模型表现(准确率/延迟/幻觉)、展示近 30 天质量趋势,以及用户点赞/踩的反馈分布 [3, 4]。
幻灯片 5:分级告警与异常响应策略
- P0 级 (Critical):发生服务完全不可用或数据泄露,需在 5 分钟内通过电话、短信和钉钉响应 [4]。
- P1 级 (High):针对 AI 准确率骤降 > 10%、幻觉率飙升或错误率 > 5% 的情况,15 分钟内响应 [4, 5]。
- P2/P3 级 (Medium/Low):处理 P95 延迟过高、成本异常或指标轻微偏离,通过邮件或日报在 1-24 小时内处理 [4]。
- 动态阈值判定:避免误报,例如判断成本异常需基于“大于 7 天平均值的 2 倍”等动态条件 [5]。
幻灯片 6:端到端数据流与事件追踪架构
- 数据管道流向:客户端/SDK -> API Gateway -> Kafka -> ClickHouse 数仓 -> 最终进入前端看板 [5, 6]。
- AI 专属追踪字段:事件日志中必须包含
model_id、Token 消耗量、推理延迟、请求成本金额等关键信息 [6]。 - 质量与反馈闭环:数据表中需记录模型置信度得分 (Confidence Score)、是否触发幻觉检测以及用户的具体反馈 [6, 7]。
- 高效聚合查询:基于 ClickHouse 实现过去 30 天内分模型、分功能的每日 AI 质量指标聚合 [7]。
幻灯片 7:工具协同与数据驱动决策
- Grafana 与 Metabase 协同:Grafana 用于秒级监控 L3/L4 基础设施与告警,Metabase 用于 L1/L2 业务漏斗与自助分析 [8]。
- 科学决策标准:例如上线新模型时,要求准确率不下降、延迟最多增加 1.5 倍、成本最多增加 2 倍 [8]。
- AI 专属 A/B 测试:设立护栏指标,确保在提升主指标(如用户满意度)的同时,幻觉率与错误率的增长不超过 1% [9]。
- 最终管理目标:让团队实现 30 秒内看到问题,5 分钟内定位原因,1 小时内推动修复 [9]。
博客摘要 + 核心看点 点击展开
AI 产品指标看板设计 — summary
这是一份为您定制的 SEO 友好博客摘要及核心看点:
SEO 友好博客摘要
传统 SaaS 指标已无法满足 AI 产品的需求。本文深度解析如何构建 AI 专属的数据可观测体系,提出涵盖业务、产品、AI 质量与基础设施的“四层指标模型”[1]。从 DAU 到推理成本,全面追踪模型准确率、幻觉率等核心维度[1, 2]。结合 Grafana 与 Metabase 落地实践,助您打造高效的指标看板与分级告警策略,实现数据驱动决策[3-5]。
3 条核心看点
- 构建四层模型:全面覆盖业务、产品、AI质量与基础设施,打破传统指标局限[1]。
- 紧抓AI生命线:除DAU外,必须严格追踪模型准确率、幻觉率及单次推理成本[1, 2]。
- 两套系统互补:Grafana管实时监控与告警,Metabase负责业务自助分析[3, 4]。
60 秒短视频脚本 点击展开
AI 产品指标看板设计 — video
这是一段为您量身定制的 60 秒短视频脚本,已严格按照您的字数和结构要求编写:
【钩子开场】(13字)
DAU暴涨,AI产品却死了?[1]
【核心解说】
- 传统软件看日活,AI产品必须紧盯模型质量与推理成本。[1](26字)
- 建议搭建四层看板:全面涵盖业务、产品、AI质量与基础设施。[1](29字)
- 准确率和幻觉率是生命线,好看板能让团队三十秒内发现问题。[2, 3](29字)
【收束】
指标不是目的,数据驱动决策才能真正护航AI产品![3]
课后巩固
与本文内容匹配的闪卡与测验,帮助巩固所学知识
延伸阅读
根据本文主题,为你推荐相关的学习资料