AI 产品 PRD 撰写指南与模版

原创灵阙教研团队

S 精选进阶参考手册 | 约 9 分钟阅读更新于 2026-02-27

AI 导读

AI 产品 PRD 撰写指南与模版写好一份 AI 产品 PRD，80% 的坑就提前填上了你有没有经历过这样的场景？ PRD 写得很漂亮：用户输入问题，AI 返回答案，界面清爽简洁。开发做完了，测试也过了，上线第一天——用户问了句方言，AI 回了段英文；问了个敏感话题，AI 侃侃而谈；高峰期响应 15 秒，用户以为卡死了疯狂刷新。这些问题，不是开发的锅，是 PRD 的锅。传统 PRD...

AI 产品 PRD 撰写指南与模版

写好一份 AI 产品 PRD，80% 的坑就提前填上了

你有没有经历过这样的场景？

PRD 写得很漂亮：用户输入问题，AI 返回答案，界面清爽简洁。开发做完了，测试也过了，上线第一天——用户问了句方言，AI 回了段英文；问了个敏感话题，AI 侃侃而谈；高峰期响应 15 秒，用户以为卡死了疯狂刷新。

这些问题，不是开发的锅，是 PRD 的锅。传统 PRD 假设系统是确定性的——输入 A 必然得到输出 B。但 AI 产品天生是概率性的——输入 A 可能得到 B、C、D，甚至得到一堆胡话。

这篇文章会告诉你：AI 产品的 PRD 和传统 PRD 到底差在哪，以及一套经过实战验证的模版。

一、AI 产品 PRD 的四大特殊性

1.1 传统 PRD vs AI 产品 PRD

维度	传统产品 PRD	AI 产品 PRD
输出确定性	确定：按钮点了就跳转	概率性：同一输入可能不同输出
错误处理	明确的错误码和提示	需要处理"模型幻觉""不确定性"
数据依赖	功能不依赖历史数据	模型质量强依赖训练/评估数据
迭代方式	加功能、改 UI	换模型、调 Prompt、加数据
成本结构	固定（服务器）	可变（每次推理都花钱）
用户预期	精确匹配	需要管理"AI 不是万能的"预期

1.2 AI PRD 必须额外回答的四个问题

Q1: 模型错了怎么办？（Failure State Design）
Q2: 数据从哪来、够不够？（Data Strategy）
Q3: 一次推理花多少钱？（Cost per Inference）
Q4: 怎么衡量"好不好用"？（Evaluation beyond NPS）

这四个问题，传统 PRD 一个都不需要回答。但在 AI 产品里，漏掉任何一个都可能导致项目失败。

二、AI 产品 PRD 完整模版

以下是经过多个项目验证的模版结构。每个章节后面的标注说明是否为 AI 产品特有。

模版结构总览

1. 问题与背景              [通用]
2. AI 能力映射              [AI 特有]
3. 数据需求与策略           [AI 特有]
4. 模型选型与理由           [AI 特有]
5. 用户体验设计             [通用，但含失败态]
6. 评估指标体系             [AI 特有]
7. 伦理与合规考量           [AI 特有]
8. 迭代计划与模型升级路径    [AI 特有]
9. 非目标与边界             [通用]
10. 依赖与风险              [通用]

2.1 问题与背景

## 1. 问题与背景

### 1.1 目标用户
- 用户画像：[谁在用？什么场景？什么频率？]
- 当前痛点：[没有 AI 时，用户怎么做？花多少时间/钱？]
- 期望收益：[用了 AI 后，节省多少时间/钱？体验提升多少？]

### 1.2 业务背景
- 市场规模：[TAM/SAM/SOM]
- 竞品现状：[谁在做？做到什么程度？]
- 战略定位：[为什么是现在做？为什么是我们做？]

### 1.3 成功标准（30/60/90 天）
- 30 天：[MVP 验证标准]
- 60 天：[增长标准]
- 90 天：[商业化标准]

2.2 AI 能力映射（AI 特有）

这是最容易被忽略、也最容易出问题的章节。

## 2. AI 能力映射

### 2.1 核心 AI 能力
| 能力 | 技术路径 | 成熟度 | 可靠性预期 |
|------|----------|--------|------------|
| [例：意图识别] | [NLU/LLM] | [成熟/实验] | [95%/80%/60%] |

### 2.2 能力边界（必须写清楚）
- 能做什么：[明确列出]
- 不能做什么：[明确列出，更重要]
- 灰色地带：[能做但不稳定的场景，需要人工兜底]

### 2.3 人机协作策略
- 全自动场景：[AI 置信度 > X% 时自动处理]
- 半自动场景：[AI 给建议，人工确认]
- 人工兜底场景：[AI 无法处理时，转人工的流程]

2.3 数据需求与策略（AI 特有）

## 3. 数据需求与策略

### 3.1 训练/评估数据
| 数据类型 | 数据量 | 来源 | 标注需求 | 获取成本 |
|----------|--------|------|----------|----------|
| [例：客服对话] | [10万条] | [历史记录] | [意图标注] | [内部，低] |

### 3.2 数据管线
- 数据采集 -> 清洗 -> 标注 -> 训练 -> 评估
- 数据更新频率：[实时/日更/周更]
- 数据质量监控：[异常检测机制]

### 3.3 冷启动策略
- [无历史数据时的方案：合成数据/迁移学习/规则兜底]

2.4 模型选型与理由（AI 特有）

## 4. 模型选型

### 4.1 候选模型对比
| 模型 | 准确率 | 延迟 | 成本/次 | 部署方式 | 选型结论 |
|------|--------|------|---------|----------|----------|
| GPT-4o | 92% | 2s | $0.03 | API | 备选 |
| Claude Sonnet | 90% | 1.5s | $0.015 | API | 主选 |
| Gemini Flash | 85% | 0.5s | $0.002 | API | 高并发兜底 |

### 4.2 选型理由
- 主模型：[选择理由，权衡说明]
- Fallback 链：[主模型 -> 备选1 -> 备选2]
- 升级路径：[什么条件下换模型]

2.5 用户体验设计（含失败态）

## 5. 用户体验设计

### 5.1 核心交互流程
[标准的用户流程图]

### 5.2 失败态设计（AI 特有，必须详细）

| 失败场景 | 触发条件 | 用户看到什么 | 系统动作 |
|----------|----------|-------------|----------|
| 模型超时 | 响应 > 5s | 骨架屏 + "正在思考" | 自动重试1次 |
| 低置信度 | 置信度 < 60% | "我不太确定，建议您..." | 记录用于改进 |
| 模型幻觉 | 事实检查失败 | 不展示 + 转人工 | 告警 + 标注 |
| 敏感内容 | 安全过滤命中 | "无法回答此类问题" | 记录 + 审查 |
| 服务降级 | 主模型不可用 | 功能可用但质量下降 | 切 Fallback |

### 5.3 不确定性表达
- 高置信度（>90%）：直接展示结果
- 中置信度（60-90%）：展示结果 + "仅供参考"标签
- 低置信度（<60%）：不展示 + 引导人工处理

三、实战案例：智能客服产品 PRD 节选

以下是一个真实项目的 PRD 关键节选（脱敏后），展示上述模版如何落地。

3.1 问题与背景

目标用户：电商平台客服团队（日均咨询量 5000+）

当前痛点：

70% 的咨询是重复问题（物流查询、退换货政策）
人工客服平均响应时间 3 分钟
夜间无人值守，错过 15% 的咨询

成功标准：

30 天：AI 自动处理率 > 40%，用户满意度 > 85%
60 天：AI 自动处理率 > 60%，人工客服工作量下降 30%
90 天：7x24 覆盖，夜间咨询响应率 > 95%

3.2 能力边界（最关键的部分）

能做（全自动）：
  - 物流查询（调用物流 API + 模板话术）
  - FAQ 问答（基于知识库检索）
  - 订单状态查询（调用订单 API）

能做但需人工确认（半自动）：
  - 退换货审批（AI 预判 + 人工审核）
  - 优惠券发放（AI 推荐方案 + 人工确认）

不能做（直接转人工）：
  - 投诉处理（情绪安抚需要人）
  - 异常订单（金额 > 5000 或 VIP 客户）
  - 敏感话题（法律纠纷、人身安全）

3.3 关键指标

模型层指标：
  - 意图识别准确率 > 92%
  - 知识库检索召回率 > 85%
  - 响应延迟 < 2s（P95）

产品层指标：
  - AI 自动处理率（目标 60%）
  - 转人工率（目标 < 30%）
  - 首次解决率（目标 > 75%）

业务层指标：
  - 人工客服成本下降比例
  - 用户满意度（CSAT > 85%）
  - 夜间覆盖率

四、PRD 撰写检查清单

写完 PRD 后，用这个清单过一遍：

基础要素：
[ ] 目标用户和痛点是否清晰？
[ ] 成功标准是否可量化？
[ ] 非目标是否明确？

AI 特有要素：
[ ] 能力边界是否写清楚了"不能做什么"？
[ ] 失败态设计是否覆盖了至少 5 种场景？
[ ] 数据策略是否包含冷启动方案？
[ ] 模型选型是否有 Fallback 链？
[ ] 成本估算是否包含推理成本？
[ ] 评估指标是否分了模型/产品/业务三层？
[ ] 伦理合规是否考虑了数据隐私和内容安全？

可执行性：
[ ] 开发读完能不能直接干活？
[ ] 测试读完能不能写测试用例？
[ ] 运营读完能不能准备上线方案？

五、避坑指南

坑 1：只写"正常路径"

症状：PRD 里只有"用户提问 -> AI 回答 -> 用户满意"。后果：上线后 30% 的交互是异常路径，没人知道怎么处理。解法：失败态设计的篇幅至少占 PRD 的 20%。

坑 2：把模型能力当确定性承诺

症状：PRD 写"AI 准确率 99%"。后果：1% 的错误在千万级流量下就是 10 万次错误。解法：写区间而不是单点值，写"目标 92-95%"而不是"99%"。

坑 3：忽略推理成本

症状：PRD 没算过"一次对话要花多少钱"。后果：用户越多越亏钱，老板质问"为什么 AI 比人工还贵"。解法：PRD 里必须有成本估算表：日均请求量 x 单次成本 = 日均推理费用。

坑 4：评估指标只有准确率

症状：PRD 里的成功标准只有"模型准确率 > 90%"。后果：模型很准但用户不买账（太慢、太冷冰冰、不像人话）。解法：三层指标体系——模型层 + 产品层 + 业务层，缺一不可。

坑 5：PRD 写完就不更新

症状：上线 3 个月，PRD 还是 V1.0。后果：新人看 PRD 和实际产品对不上，决策没有文档追溯。解法：PRD 是活文档，每次模型升级/Prompt 调整/数据更新都要同步。

六、PRD 评审的三个追问

如果你是评审者，用这三个问题检验一份 AI 产品 PRD 的质量：

"模型输出了一段完全错误的内容，用户会看到什么？" -- 如果答不上来，失败态设计缺失。
"日活 10 万时，每月推理成本是多少？" -- 如果答不上来，成本模型缺失。
"上线第一天没有历史数据，产品怎么运行？" -- 如果答不上来，冷启动策略缺失。

好的 AI 产品 PRD 不是展示 AI 有多厉害的文档，而是老老实实说清楚"AI 什么时候会犯错，犯错了怎么办"的文档。承认不完美，才是通往优秀产品的起点。

Maurice | [email protected]

深度加工（NotebookLM 生成）

基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客，用于多场景复用

PPT 大纲（5-8 张幻灯片）点击展开

AI 产品 PRD 撰写指南与模版 — ppt

这是一份基于您提供的《AI 产品 PRD 撰写指南与模版》生成的 PPT 大纲，共包含 7 张幻灯片，涵盖了 AI 产品 PRD 的核心差异、关键模块设计以及避坑指南。

幻灯片 1：AI 产品 PRD 的核心特殊性

从确定性到概率性： 传统 PRD 假设输入 A 必然得到 B，而 AI 产品是概率性的，同一输入可能有不同输出甚至错误 [1]。
全新的错误处理逻辑： 不能仅靠明确的错误码，必须专门处理“模型幻觉”和系统不确定性 [1]。
高度依赖数据流： AI 功能的质量强依赖于训练和评估数据，迭代方式变为换模型、调 Prompt 和加数据 [1]。
可变的成本结构： 不同于传统产品的固定服务器成本，AI 产品每次推理都会产生费用，必须管理单次推理成本 [1]。

幻灯片 2：AI PRD 必须回答的四个关键问题

模型错了怎么办？ 需要通过详尽的“失败态设计（Failure State Design）”来接住各种异常 [1]。
数据从哪来、够不够？ 必须制定明确的数据策略（Data Strategy），包括采集和清洗等管线 [1]。
一次推理花多少钱？ 明确每次调用的成本（Cost per Inference），避免用户越多越亏钱的风险 [1, 2]。
怎么衡量好不好用？ 建立超越传统 NPS 的多层评估指标体系，不能仅靠单一的模型准确率 [1, 2]。

幻灯片 3：AI 能力映射与边界界定

明确技术路径与可靠性： 清晰标注核心 AI 能力（如大语言模型）的成熟度以及可靠性预期 [3]。
严格界定能力边界： 列出 AI 能做什么，更要明确列出“不能做什么”以及需要人工兜底的灰色地带 [3]。
人机协作策略： 根据 AI 的置信度划分全自动场景、给出建议的半自动场景以及转人工兜底的场景 [3]。
实战参考： 如智能客服中，物流查询全自动处理，退换货需半自动确认，敏感话题直接转人工 [4]。

幻灯片 4：数据策略与模型选型

构建完整数据管线： 规划数据从采集、清洗、标注到训练和评估的流转路径，并确定数据更新频率 [3]。
设计冷启动方案： 提前规划在产品上线初期、无历史数据时的应对策略（如合成数据或规则兜底） [3]。
多维度模型对比选型： 综合考量准确率、延迟时间和单次成本来选择最合适的主模型 [5]。
建立 Fallback（降级）链： 设定主模型响应超时或不可用时的备选方案，确保系统的高可用性 [5]。

幻灯片 5：用户体验与失败态设计

异常场景全覆盖： 失败态设计的篇幅应至少占 PRD 的 20%，避免只写“正常路径”导致上线后异常无人处理 [4]。
处理超时与幻觉： 明确模型响应超时（如自动重试）或发生事实核查失败（如拦截并转人工）时的系统动作与用户提示 [5]。
不确定性的分层表达： 高置信度直接展示结果，中等置信度加注“仅供参考”，低置信度不展示并引导人工处理 [5]。
保障内容安全： 命中安全过滤时，给出规范提示（如“无法回答此类问题”）并记录审查 [5]。

幻灯片 6：三层评估指标体系

模型层指标： 关注底层的技术表现，例如意图识别准确率、知识库检索召回率、响应延迟（如 P95）等 [4]。
产品层指标： 衡量用户在系统中的直接交互效果，例如 AI 自动处理率、转人工率、首次解决率等 [4]。
业务层指标： 关注最终为企业带来的商业价值，例如人工成本的下降比例、最终用户满意度（CSAT）等 [4]。
避免单一指标陷阱： 不能只看模型准确率，必须三层指标结合，避免“模型很准但用户不买账”的问题 [2]。

幻灯片 7：常见避坑指南与评审检验

拒绝确定性承诺： 不要将模型能力写成 100% 确定的单点值，应写成目标区间（如目标 92-95%） [4]。
重视成本核算： 必须在 PRD 中加入成本估算表（日均请求量 x 单次成本），防范商业风险 [2]。
保持 PRD 鲜活性： AI PRD 是活文档，随着模型升级、Prompt 调整或数据更新，必须持续同步 [2]。
质量检验三追问： “错误输出时用户看什么？”“十万日活成本多少？”“无历史数据怎么冷启动？”——答不上来说明 PRD 存在缺失 [2]。

博客摘要 + 核心看点点击展开

AI 产品 PRD 撰写指南与模版 — summary

SEO 友好博客摘要：
传统PRD与AI产品PRD有何本质区别？本文深度解析AI产品PRD的四大特殊性，直击模型幻觉、数据依赖与推理成本等核心痛点 [1]。文章提供了一套经实战验证的AI产品PRD完整模版，重点剖析能力映射、失败态设计及三层评估指标，并总结了5大实战避坑指南 [1-5]。这篇指南将帮助产品经理轻松掌握高容错的AI需求文档撰写诀窍，明确AI的能力边界与兜底策略，让项目开发与落地少走弯路！

核心看点：