AI 产品指标看板设计

原创灵阙教研团队

S 精选进阶深度解析 | 约 9 分钟阅读更新于 2026-02-28

AI 导读

AI 产品指标看板设计从 DAU 到 Cost-per-Query：构建 AI 产品的数据可观测体系为什么 AI 产品需要专属指标体系传统 SaaS 产品的核心指标是 DAU、留存率、转化率。AI 产品除了这些，还必须追踪模型质量和推理成本两个独特维度。一个 DAU 增长 50% 但推理成本增长 200% 的 AI 产品，可能正在走向死亡。本文覆盖指标设计、看板布局、告警阈值、数据管道和...

AI 产品指标看板设计

从 DAU 到 Cost-per-Query：构建 AI 产品的数据可观测体系

为什么 AI 产品需要专属指标体系

传统 SaaS 产品的核心指标是 DAU、留存率、转化率。AI 产品除了这些，还必须追踪模型质量和推理成本两个独特维度。一个 DAU 增长 50% 但推理成本增长 200% 的 AI 产品，可能正在走向死亡。

本文覆盖指标设计、看板布局、告警阈值、数据管道和 Grafana/Metabase 落地实践。

一、AI 产品指标分层框架

1.1 四层指标模型

┌──────────────────────────────────────────────────┐
│  Layer 1: 业务指标（Business Metrics）             │
│  DAU/MAU, Revenue, Conversion, Churn              │
│  -> 回答: 产品有没有商业价值？                      │
├──────────────────────────────────────────────────┤
│  Layer 2: 产品指标（Product Metrics）              │
│  Session Duration, Feature Usage, Task Success    │
│  -> 回答: 用户在用什么？用得好吗？                   │
├──────────────────────────────────────────────────┤
│  Layer 3: AI 质量指标（AI Quality Metrics）        │
│  Accuracy, Latency, Hallucination Rate, CSAT      │
│  -> 回答: AI 够好吗？在变好还是变差？                │
├──────────────────────────────────────────────────┤
│  Layer 4: 基础设施指标（Infra Metrics）            │
│  Cost/Query, GPU Util, Error Rate, Throughput     │
│  -> 回答: 系统健康吗？钱花得值吗？                   │
└──────────────────────────────────────────────────┘

1.2 核心指标矩阵

指标	层级	采集方式	刷新频率	健康阈值
DAU/MAU	L1	事件追踪	实时	DAU/MAU > 25%
付费转化率	L1	支付事件	日	> 3%
月流失率	L1	订阅状态	月	< 5%
会话完成率	L2	事件追踪	实时	> 80%
功能采纳率	L2	事件追踪	周	Top 3 功能 > 60%
AI 准确率	L3	人工评审 + 自动评估	日	> 90%
平均延迟	L3	APM	实时	P95 < 5s
幻觉率	L3	自动检测 + 人工抽样	日	< 3%
CSAT	L3	用户反馈	周	> 4.0/5.0
Cost/Query	L4	计费 API	实时	< ¥0.10
GPU 利用率	L4	监控 Agent	实时	60-85%
错误率	L4	日志聚合	实时	< 0.5%

二、看板布局设计

2.1 Executive Dashboard（高管视图）

一屏展示最关键的 6-8 个指标，30 秒内看完全局：

┌─────────────────────────────────────────────────────────┐
│  AI Product Executive Dashboard           2026-02-28    │
├─────────────┬───────────────┬───────────────────────────┤
│  DAU         │  Revenue       │  AI Quality Score        │
│  12,847      │  ¥485,200      │  ████████░░  82/100     │
│  +12% WoW   │  +8% MoM       │  +3 pts MoM             │
├─────────────┼───────────────┼───────────────────────────┤
│  Retention   │  Cost/Query    │  CSAT                    │
│  D7: 45%     │  ¥0.067        │  4.2 / 5.0              │
│  D30: 28%    │  -15% MoM      │  +0.1 MoM               │
├─────────────┴───────────────┴───────────────────────────┤
│  [7-Day Trend: DAU]   ▁▂▃▃▅▆█                          │
│  [7-Day Trend: Rev]   ▃▃▄▅▅▆▇                          │
│  [7-Day Trend: CSAT]  ▅▅▆▆▆▇▇                          │
├─────────────────────────────────────────────────────────┤
│  Active Alerts: 1 WARNING (P95 latency > 4s)           │
└─────────────────────────────────────────────────────────┘

2.2 Operations Dashboard（运营视图）

聚焦用户行为和产品使用情况：

┌─────────────────────────────────────────────────────────┐
│  Operations Dashboard                                    │
├─────────────────────────────────────────────────────────┤
│                                                          │
│  [User Funnel]                                           │
│  Visit -> Signup -> Activate -> Retain -> Pay            │
│  100%  -> 22%    -> 68%      -> 45%    -> 8%            │
│                                                          │
│  [Feature Usage Heatmap]                                 │
│  Chat:           ████████████████  82%                   │
│  Doc Analysis:   ██████████░░░░░░  55%                   │
│  Report Gen:     ████████░░░░░░░░  42%                   │
│  API Access:     ████░░░░░░░░░░░░  18%                   │
│                                                          │
│  [Session Quality Distribution]                          │
│  Excellent (>0.8):  ████████░░  35%                      │
│  Good (0.5-0.8):    ██████████  45%                      │
│  Poor (<0.5):       ████░░░░░░  20%                      │
│                                                          │
│  [Top User Queries This Week]                            │
│  1. 发票合规检查 (2,847)                                  │
│  2. 税率计算 (1,923)                                      │
│  3. 报表生成 (1,456)                                      │
│                                                          │
└─────────────────────────────────────────────────────────┘

2.3 AI Quality Dashboard（模型质量视图）

这是 AI 产品独有的看板：

┌─────────────────────────────────────────────────────────┐
│  AI Quality Dashboard                                    │
├─────────────────────────────────────────────────────────┤
│                                                          │
│  [Model Performance by Category]                         │
│  Category          Accuracy  Latency  Hallucination     │
│  Tax Classification  94.2%    1.2s     1.8%             │
│  Invoice Parsing     91.7%    2.3s     2.5%             │
│  Compliance Check    88.5%    3.8s     3.2%             │
│  Report Generation   86.3%    5.1s     4.1%             │
│                                                          │
│  [Quality Trend (30 Days)]                               │
│  Accuracy:   ▁▂▂▃▃▃▄▄▅▅▅▅▆▆▆▆▆▇▇▇▇▇▇▇█████           │
│  Latency:    █▇▇▆▆▆▅▅▅▅▄▄▄▄▃▃▃▃▃▃▃▂▂▂▂▂▂▂▂▁           │
│                                                          │
│  [User Feedback Distribution]                            │
│  Thumbs Up:    ████████████  72%                         │
│  Thumbs Down:  ████░░░░░░░░  15%                         │
│  Regenerated:  ███░░░░░░░░░  13%                         │
│                                                          │
│  [Hallucination Detection]                               │
│  Auto-detected:   45 / day                               │
│  User-reported:   12 / day                               │
│  False positive:  8%                                     │
│                                                          │
└─────────────────────────────────────────────────────────┘

三、告警阈值设计

3.1 分级告警策略

级别	条件	通知方式	响应时间
P0 Critical	服务完全不可用 / 数据泄露	电话 + 短信 + 钉钉	5 分钟
P1 High	准确率骤降 > 10% / 错误率 > 5%	短信 + 钉钉	15 分钟
P2 Medium	延迟 P95 > 8s / Cost 异常 > 50%	钉钉 + 邮件	1 小时
P3 Low	指标轻微偏离 / 趋势预警	邮件 + 日报	24 小时

3.2 AI 专属告警规则

# alerting-rules.yaml
alerts:
  - name: accuracy_drop
    metric: ai.accuracy.rolling_24h
    condition: decrease > 5% compared to 7-day avg
    severity: P1
    message: "AI accuracy dropped {value}% in last 24h"

  - name: hallucination_spike
    metric: ai.hallucination.rate.1h
    condition: value > 5%
    severity: P1
    message: "Hallucination rate spiked to {value}%"

  - name: cost_anomaly
    metric: infra.cost_per_query.1h
    condition: value > 2x of 7-day avg
    severity: P2
    message: "Cost per query anomaly: {value} (avg: {avg})"

  - name: latency_degradation
    metric: ai.latency.p95.5m
    condition: value > 8000  # milliseconds
    severity: P2
    message: "P95 latency: {value}ms"

  - name: feedback_negative_surge
    metric: ai.feedback.negative_rate.1h
    condition: value > 25%
    severity: P2
    message: "Negative feedback rate: {value}%"

  - name: model_drift
    metric: ai.distribution.kl_divergence.daily
    condition: value > 0.15
    severity: P3
    message: "Model input distribution drift detected: KL={value}"

四、数据管道架构

4.1 端到端数据流

┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐
│  Client   │    │  API     │    │  Stream  │    │  Storage │
│  SDK      │───>│  Gateway │───>│  Kafka   │───>│  ClickH. │
│           │    │          │    │          │    │          │
│  Events:  │    │  Enrich: │    │  Topics: │    │  Tables: │
│  - click  │    │  - user  │    │  - events│    │  - events│
│  - query  │    │  - geo   │    │  - metrics│   │  - metrics│
│  - feedback│   │  - device│    │  - logs  │    │  - agg   │
│  - timing │    │  - session│   │          │    │          │
└──────────┘    └──────────┘    └──────────┘    └──────────┘
                                                      │
                                                      ▼
                                              ┌──────────────┐
                                              │   Dashboard   │
                                              │  Grafana /    │
                                              │  Metabase     │
                                              └──────────────┘

4.2 事件追踪 Schema

interface AIEvent {
  // Standard fields
  event_id: string;           // UUID
  timestamp: string;          // ISO 8601
  user_id: string;
  session_id: string;
  event_type: string;         // "query" | "feedback" | "action" | "error"

  // AI-specific fields
  model_id: string;           // "gpt-4" | "claude-3" | "custom-v2"
  prompt_tokens: number;
  completion_tokens: number;
  latency_ms: number;
  cost_cents: number;         // Cost in cents (USD/RMB)

  // Quality fields
  confidence_score: number;   // 0.0 - 1.0
  hallucination_detected: boolean;
  user_feedback: "positive" | "negative" | "neutral" | null;
  regeneration_count: number;

  // Context
  feature: string;            // "chat" | "doc_analysis" | "report"
  input_type: string;         // "text" | "file" | "image"
  output_type: string;        // "text" | "table" | "chart"

  // Metadata
  metadata: Record<string, unknown>;
}

4.3 聚合查询示例

-- Daily AI quality metrics
SELECT
    toDate(timestamp) AS date,
    model_id,
    feature,
    count() AS total_queries,
    avg(latency_ms) AS avg_latency,
    quantile(0.95)(latency_ms) AS p95_latency,
    avg(confidence_score) AS avg_confidence,
    countIf(hallucination_detected) / count() AS hallucination_rate,
    countIf(user_feedback = 'positive') /
        nullIf(countIf(user_feedback IS NOT NULL), 0) AS positive_rate,
    sum(cost_cents) / 100.0 AS total_cost_yuan,
    sum(cost_cents) / count() / 100.0 AS cost_per_query_yuan
FROM ai_events
WHERE event_type = 'query'
  AND timestamp >= today() - INTERVAL 30 DAY
GROUP BY date, model_id, feature
ORDER BY date DESC, total_queries DESC;

五、Grafana 落地实践

5.1 Dashboard 组织结构

Grafana Folder Structure:
  AI Product/
    ├── Executive Overview          # 高管看板
    ├── User & Product Metrics      # 用户与产品指标
    ├── AI Quality Monitoring       # AI 质量监控
    ├── Cost & Infrastructure       # 成本与基础设施
    └── Alerts & Incidents          # 告警与事件

5.2 关键面板配置

{
  "dashboard": {
    "title": "AI Quality Monitoring",
    "panels": [
      {
        "title": "Accuracy by Feature (7-Day Rolling)",
        "type": "timeseries",
        "datasource": "ClickHouse",
        "targets": [{
          "rawSql": "SELECT toStartOfHour(timestamp) AS time, feature, avg(confidence_score) AS accuracy FROM ai_events WHERE timestamp >= now() - INTERVAL 7 DAY GROUP BY time, feature ORDER BY time"
        }],
        "fieldConfig": {
          "defaults": {
            "min": 0.7,
            "max": 1.0,
            "thresholds": {
              "steps": [
                { "value": 0.85, "color": "red" },
                { "value": 0.90, "color": "yellow" },
                { "value": 0.95, "color": "green" }
              ]
            }
          }
        }
      },
      {
        "title": "Cost per Query (Hourly)",
        "type": "stat",
        "datasource": "ClickHouse",
        "targets": [{
          "rawSql": "SELECT sum(cost_cents)/count()/100.0 AS cost FROM ai_events WHERE event_type='query' AND timestamp >= now() - INTERVAL 1 HOUR"
        }]
      }
    ]
  }
}

六、Metabase 业务分析设置

6.1 适用场景对比

维度	Grafana	Metabase
定位	实时监控 + 告警	业务分析 + 自助查询
用户	工程师 / SRE	产品经理 / 运营 / 管理层
数据刷新	秒级	分钟级
可视化	时序图为主	表格/漏斗/地图
告警	原生支持	有限支持
自助查询	需 SQL	可视化拖拽
推荐用法	L3/L4 指标	L1/L2 指标

6.2 Metabase 核心 Question 配置

Saved Questions:
  1. "Daily Active Users Trend"
     - Table: user_sessions
     - Group by: date, user_type
     - Visualization: Line chart

  2. "Feature Usage Breakdown"
     - Table: ai_events
     - Filter: event_type = 'query'
     - Group by: feature
     - Visualization: Bar chart

  3. "Conversion Funnel"
     - Custom SQL with CTE
     - Steps: Visit -> Signup -> First Query -> 10th Query -> Paid
     - Visualization: Funnel

  4. "Cost Analysis by Model"
     - Table: ai_events
     - Group by: model_id, week
     - Metrics: total_cost, avg_cost_per_query, total_queries
     - Visualization: Pivot table

七、指标驱动决策框架

7.1 常见决策场景

场景	看什么指标	决策标准
是否上线新模型	Accuracy + Latency + Cost	Accuracy >= 当前, Latency <= 1.5x, Cost <= 2x
是否推广新功能	Feature Usage + CSAT + Retention Impact	Day 7 Retention 提升 > 2%
是否调整定价	Conversion + Churn + Revenue	Revenue +15% AND Churn < +2%
是否降级模型	Cost/Query + Accuracy Drop	Cost 下降 > 30% AND Accuracy 下降 < 3%
是否扩容	GPU Util + P95 Latency + Error Rate	GPU > 80% 或 P95 > 5s

7.2 A/B 测试框架

# AI-specific A/B test configuration
AB_TEST_CONFIG = {
    "model_comparison": {
        "control": "gpt-4-turbo",
        "treatment": "claude-3-opus",
        "metrics": {
            "primary": "user_satisfaction_score",
            "secondary": ["accuracy", "latency_p95", "cost_per_query"],
            "guardrail": ["hallucination_rate", "error_rate"]
        },
        "split": 50,  # 50/50 split
        "min_sample": 1000,  # queries per arm
        "duration_days": 14,
        "success_criteria": {
            "primary_lift": 0.05,     # 5% improvement
            "guardrail_max_increase": 0.01  # No more than 1% increase
        }
    }
}

总结

AI 产品指标体系的核心原则：

四层分明 —— 业务/产品/AI 质量/基础设施各司其职
AI 独有指标不可缺 —— 准确率、幻觉率、Cost/Query 是 AI 产品的生命线
两套系统互补 —— Grafana 管监控告警，Metabase 管业务分析
告警分级响应 —— P0 电话叫人，P3 日报提醒，不一刀切
数据驱动决策 —— 每个决策场景都有对应的指标组合和判断标准

指标不是目的，决策才是。建设看板的终极目标是让团队在 30 秒内看到问题，5 分钟内定位原因，1 小时内推动修复。

Maurice | [email protected]

深度加工（NotebookLM 生成）

基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客，用于多场景复用

PPT 大纲（5-8 张幻灯片）点击展开

AI 产品指标看板设计 — ppt

这是一份基于您提供的文章内容提取的 PPT 大纲，共包含 7 张幻灯片，涵盖了从指标框架到落地实践的核心内容：

幻灯片 1：为什么 AI 产品需要专属指标体系

传统 SaaS 指标的局限：传统产品主要关注 DAU、留存率和转化率，这在 AI 时代是不够的 [1]。
新增核心维度：AI 产品必须额外追踪“模型质量”和“推理成本”这两个独特维度 [1]。
潜在的生死危机：如果一个产品 DAU 增长了 50%，但推理成本却增长了 200%，该产品可能正在走向死亡 [1]。
目标愿景：构建一个包含指标分层、看板布局、告警阈值和数据管道的完整数据可观测体系 [1]。

幻灯片 2：AI 产品的四层指标模型框架

L1 业务指标 (Business)：回答“产品有没有商业价值？”，核心关注 DAU/MAU、转化率与收入 [1]。
L2 产品指标 (Product)：回答“用户在用什么？用得好吗？”，关注会话时长、功能采纳率和任务成功率 [1]。
L3 AI 质量指标 (AI Quality)：回答“AI 够好吗？”，专属追踪准确率、延迟、幻觉率和用户满意度 (CSAT) [1]。
L4 基础设施指标 (Infra)：回答“系统健康吗？钱花得值吗？”，监控 Cost/Query（单次请求成本）、GPU 利用率和错误率 [1]。

幻灯片 3：核心指标矩阵与健康阈值设定

业务与用户阈值：DAU/MAU 比例需保持 > 25%，付费转化率需 > 3% [1, 2]。
质量与体验阈值：AI 准确率需维持在 > 90%，同时将幻觉率严格控制在 < 3% [2]。
成本与性能阈值：平均延迟 P95 应 < 5s，单次请求成本 (Cost/Query) 应控制在 < ¥0.10 [2]。
数据采集手段：结合实时事件追踪、自动评估检测与人工评审抽样进行多维度打分 [1, 2]。

幻灯片 4：三重视角的看板布局设计

高管视图 (Executive Dashboard)：一屏展示 6-8 个最关键指标，让管理层在 30 秒内看完全局（如 DAU、收入、AI 质量分） [2]。
运营视图 (Operations Dashboard)：聚焦产品使用情况，包含用户转化漏斗、功能使用热力图和会话质量分布 [3]。
AI 质量专属视图：按类别展示模型表现（准确率/延迟/幻觉）、展示近 30 天质量趋势，以及用户点赞/踩的反馈分布 [3, 4]。

幻灯片 5：分级告警与异常响应策略

P0 级 (Critical)：发生服务完全不可用或数据泄露，需在 5 分钟内通过电话、短信和钉钉响应 [4]。
P1 级 (High)：针对 AI 准确率骤降 > 10%、幻觉率飙升或错误率 > 5% 的情况，15 分钟内响应 [4, 5]。
P2/P3 级 (Medium/Low)：处理 P95 延迟过高、成本异常或指标轻微偏离，通过邮件或日报在 1-24 小时内处理 [4]。
动态阈值判定：避免误报，例如判断成本异常需基于“大于 7 天平均值的 2 倍”等动态条件 [5]。

幻灯片 6：端到端数据流与事件追踪架构

数据管道流向：客户端/SDK -> API Gateway -> Kafka -> ClickHouse 数仓 -> 最终进入前端看板 [5, 6]。
AI 专属追踪字段：事件日志中必须包含 model_id、Token 消耗量、推理延迟、请求成本金额等关键信息 [6]。
质量与反馈闭环：数据表中需记录模型置信度得分 (Confidence Score)、是否触发幻觉检测以及用户的具体反馈 [6, 7]。
高效聚合查询：基于 ClickHouse 实现过去 30 天内分模型、分功能的每日 AI 质量指标聚合 [7]。

幻灯片 7：工具协同与数据驱动决策

Grafana 与 Metabase 协同：Grafana 用于秒级监控 L3/L4 基础设施与告警，Metabase 用于 L1/L2 业务漏斗与自助分析 [8]。
科学决策标准：例如上线新模型时，要求准确率不下降、延迟最多增加 1.5 倍、成本最多增加 2 倍 [8]。
AI 专属 A/B 测试：设立护栏指标，确保在提升主指标（如用户满意度）的同时，幻觉率与错误率的增长不超过 1% [9]。
最终管理目标：让团队实现 30 秒内看到问题，5 分钟内定位原因，1 小时内推动修复 [9]。

博客摘要 + 核心看点点击展开

AI 产品指标看板设计 — summary

这是一份为您定制的 SEO 友好博客摘要及核心看点：

SEO 友好博客摘要
传统 SaaS 指标已无法满足 AI 产品的需求。本文深度解析如何构建 AI 专属的数据可观测体系，提出涵盖业务、产品、AI 质量与基础设施的“四层指标模型”[1]。从 DAU 到推理成本，全面追踪模型准确率、幻觉率等核心维度[1, 2]。结合 Grafana 与 Metabase 落地实践，助您打造高效的指标看板与分级告警策略，实现数据驱动决策[3-5]。

3 条核心看点