提示词工程进阶:从 Chain-of-Thought 到 Tree-of-Thought
AI 导读
提示词工程进阶:从 Chain-of-Thought 到 Tree-of-Thought 作者:Maurice | 灵阙学院 提示词工程的三个阶段 阶段一:直接提示(2022 前) 直接向模型提问,依赖模型的"直觉": Q: 小明有 15 个苹果,给了小红 7 个,又买了 3 个,现在有几个? A: 11 个 问题:对于稍复杂的推理任务,直接提示的准确率显著下降。...
提示词工程进阶:从 Chain-of-Thought 到 Tree-of-Thought
作者:Maurice | 灵阙学院
提示词工程的三个阶段
阶段一:直接提示(2022 前)
直接向模型提问,依赖模型的"直觉":
Q: 小明有 15 个苹果,给了小红 7 个,又买了 3 个,现在有几个?
A: 11 个
问题:对于稍复杂的推理任务,直接提示的准确率显著下降。
阶段二:引导式推理(2022-2024)
通过提示词引导模型逐步推理:
- Chain-of-Thought(思维链)
- Few-shot CoT(少样本思维链)
- Zero-shot CoT("Let's think step by step")
阶段三:结构化搜索(2024-)
将推理过程组织为树/图结构,系统化地探索解空间:
- Tree-of-Thought(思维树)
- Graph-of-Thought(思维图)
- Self-Consistency(自一致性)
Chain-of-Thought(思维链)
核心思想
Google Brain 在 2022 年提出 CoT:让模型在给出最终答案之前,显式输出中间推理步骤。
三种用法
Zero-shot CoT(最简单):
Q: [问题]
A: Let's think step by step.
(或中文:让我们一步一步地思考。)
Few-shot CoT(更可控):
Q: 一家餐厅有 23 个座位,其中 8 个已被占用。接下来又来了 5 个人,还剩几个空位?
A: 起初有 23 个座位。已被占用 8 个,所以空位是 23 - 8 = 15 个。
又来了 5 个人,所以空位变为 15 - 5 = 10 个。
答案是 10 个空位。
Q: [新问题]
A: [模型会模仿示例的推理格式]
Self-Ask CoT(分治策略):
Q: 马斯克创办的公司中,哪家公司最先达到 1000 亿美元市值?
Follow up: 马斯克创办了哪些公司?
Intermediate answer: SpaceX、Tesla、Neuralink、xAI 等。
Follow up: 这些公司分别何时达到 1000 亿美元市值?
Intermediate answer: Tesla 于 2020 年 6 月首次达到 1000 亿美元市值。SpaceX 于 2024 年达到...
So the final answer is: Tesla
CoT 的局限
- 路径依赖:一旦早期步骤出错,后续推理全部偏移
- 单线程:只探索一条推理路径,可能错过更优解
- 不可回溯:无法在中间步骤回退重来
- 长度爆炸:复杂问题的推理链可能非常长
Tree-of-Thought(思维树)
核心改进
ToT 由 Princeton 和 Google DeepMind 于 2023 年提出,将 CoT 的线性推理升级为树状搜索:
CoT(线性):
State_0 → State_1 → State_2 → State_3 → Answer
ToT(树状):
┌→ State_1a → State_2a → Answer_a (score: 0.8)
State_0 → Branch ──┤
├→ State_1b → State_2b → Answer_b (score: 0.3)
│ ↑ 剪枝
└→ State_1c → State_2c → Answer_c (score: 0.9) ← 最优
三个关键组件
1. 思维生成器(Thought Generator)
在每个节点生成多个可能的下一步:
当前状态:公司去年收入 1000 万,增长率 20%
生成候选思路:
- 思路A:按复合增长率计算未来 3 年收入
- 思路B:考虑市场饱和的增长率递减模型
- 思路C:对标同行业公司调整增长假设
2. 状态评估器(State Evaluator)
评估每个中间状态的"前景":
# 评估策略:让 LLM 评分
prompt = f"""
评估以下推理步骤的质量(1-10分):
问题:{question}
当前推理:{current_reasoning}
请从以下维度评分:
1. 逻辑正确性
2. 与问题的相关性
3. 是否接近最终答案
总分:
"""
3. 搜索算法(Search Algorithm)
- BFS(广度优先):逐层展开,适合浅搜索
- DFS(深度优先):深入一条路径,适合深搜索
- Beam Search:保留 Top-K 分支,平衡广度和深度
适用场景
ToT 在以下场景显著优于 CoT:
- 创意任务:写诗、编剧(需要探索多种表达)
- 规划问题:旅行规划、项目排期(需要评估多种方案)
- 数学推理:复杂数学题(需要尝试不同解题路径)
- 博弈推理:需要考虑对手策略的场景
代价
- 成本高:每个节点需要多次 LLM 调用(生成 + 评估)
- 延迟高:搜索过程比单次生成慢 5-20 倍
- 工程复杂:需要实现搜索逻辑和状态管理
Graph-of-Thought(思维图)
超越树结构
GoT 将推理组织为有向图(DAG),允许:
- 聚合:多个推理路径合并为一个结论
- 细化:对某个中间结果做进一步改进
- 循环:在不满足质量要求时回到之前的节点
┌→ Thought_A ──┐
Start ──┤ ├→ Merge → Refine → Answer
└→ Thought_B ──┘ ↑
│ │
└── Loop ─────┘(若质量不够)
与 ToT 的区别
| 维度 | ToT | GoT |
|---|---|---|
| 结构 | 树(无环) | 有向无环图(DAG) |
| 聚合 | 不支持 | 支持多路合并 |
| 细化 | 不支持 | 支持迭代改进 |
| 适用 | 探索型任务 | 综合型任务 |
Self-Consistency(自一致性)
核心思想
对同一个问题,多次使用 CoT 生成不同的推理路径,然后投票选出最一致的答案。
Run 1: 15 - 7 + 3 = 11 → 答案: 11
Run 2: 15 - 7 = 8, 8 + 3 = 11 → 答案: 11
Run 3: 15 + 3 = 18, 18 - 7 = 11 → 答案: 11
Run 4: 15 - 7 + 3 = 11 → 答案: 11
Run 5: 15 + 3 - 7 = 11 → 答案: 11
投票结果: 11 (5/5) → 最终答案: 11
参数选择
- 采样次数(n):通常 5-20 次,更多不一定更好
- 温度(temperature):0.5-0.8,需要一定随机性来产生不同路径
- 投票策略:简单多数 or 加权投票(置信度高的路径权重更大)
与 ToT 的互补
- Self-Consistency 适合有明确答案的问题(数学、事实)
- ToT 适合开放性问题(规划、创意)
- 可以组合使用:ToT 生成候选 + Self-Consistency 选最优
推理模型时代的提示词工程
OpenAI o1/o3 和 Claude Extended Thinking
推理模型(Reasoning Models)在模型内部实现了类似 ToT 的搜索:
- 模型自动进行多步推理
- 不需要用户在提示词中写"让我们一步一步思考"
- 思考过程可能被隐藏(o1)或显示(Claude Extended Thinking)
新的提示词最佳实践
对于推理模型,提示词工程的重点从"如何让模型思考"变为"如何让模型理解需求":
- 清晰的目标:明确最终输出的格式和内容要求
- 完整的约束:列出所有必须满足的条件
- 相关上下文:提供解决问题所需的所有背景信息
- 少用模板:不要过度约束推理路径,让模型自主探索
旧方式(引导推理):
请一步步分析以下合同的合规风险:
Step 1: 识别合同类型
Step 2: 列出适用法规
Step 3: 逐条检查合规性
Step 4: 输出风险清单
新方式(定义目标):
请分析以下合同的合规风险。要求:
- 覆盖《合同法》《税法》《数据安全法》相关条款
- 风险按严重程度排序(高/中/低)
- 每个风险附带修改建议和法规引用
- 输出格式:JSON,含 risk_id, severity, description, regulation, suggestion
实践决策树
选择哪种提示策略:
任务是否需要推理?
├── 否 → 直接提示
└── 是 → 使用推理模型?
├── 是 → 定义清晰目标 + 约束(让模型自主推理)
└── 否 → 任务复杂度?
├── 低(1-3步)→ Zero-shot CoT
├── 中(3-8步)→ Few-shot CoT + Self-Consistency
└── 高(>8步/多路径)→ ToT 或 GoT
Maurice | [email protected]
深度加工(NotebookLM 生成)
基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客,用于多场景复用
PPT 大纲(5-8 张幻灯片) 点击展开
提示词工程进阶:从 Chain-of-Thought 到 Tree-of-Thought — ppt
这是一份基于您提供的文章内容生成的 PPT 大纲,共 7 张幻灯片,完全符合您的格式要求:
提示词工程的演进:从直接提示到系统化搜索
- 阶段一:直接提示(2022年前):直接向模型提问,过度依赖模型直觉,在稍复杂的推理任务中准确率下降显著 [1]。
- 阶段二:引导式推理(2022-2024年):通过思维链(Chain-of-Thought)等方法,引导大模型进行逐步推理 [1]。
- 阶段三:结构化搜索(2024年起):采用思维树(ToT)或思维图(GoT),将推理过程组织为树/图结构,系统化探索解空间 [1]。
核心基础:Chain-of-Thought (思维链)
- 核心思想:让大模型在输出最终答案前,显式地输出中间的推理步骤 [1]。
- 三种主流用法:包括简单的 Zero-shot("一步步思考")、可控的 Few-shot(模仿示例),以及分治策略的 Self-Ask [1]。
- 四大局限性:存在严重的路径依赖(早期出错后续全错),并且是单线程探索,不可回溯,面对复杂问题极易引发长度爆炸 [2]。
结构化升级:Tree-of-Thought (思维树)
- 核心改进:将思维链传统的线性单线程推理,升级为可容纳多分支的树状搜索模式 [2]。
- 三大关键组件:依靠思维生成器提供下一步的候选思路,通过状态评估器为中间状态打分,利用搜索算法(如BFS/DFS/Beam Search)展开搜索 [2]。
- 优势场景:在创意生成、规划排期、复杂数学及博弈推理等开放性探索任务中显著优于 CoT [2]。
- 实施代价:每个节点需多次调用 LLM,导致延迟极高(慢 5-20 倍)、成本高昂且工程实现复杂 [2, 3]。
超越树结构:Graph-of-Thought (思维图)
- 核心结构:将推理逻辑进一步升级为有向无环图(DAG),突破了单纯树结构的限制 [3]。
- 关键能力:聚合与细化:支持将多条推理路径合并为一个结论(聚合),也支持对某个中间结果做进一步改进(细化) [3]。
- 质量控制与闭环:具备**循环(Loop)**机制,在中间结论不满足质量要求时允许回退至之前的节点重新推理 [3]。
- 场景定位:相比于适合探索型任务的 ToT,支持多路合并的 GoT 更适用于复杂的综合型任务 [3]。
结果优化:Self-Consistency (自一致性)
- 核心思想:对同一问题多次运用 CoT 生成不同推理路径,最后通过投票选出最为一致的答案 [3]。
- 参数设置建议:通常建议采样 5-20 次,并适度调高温度(Temperature 设置在 0.5-0.8)以产生多样化的推理路径 [3]。
- 适用场景:非常适合具有明确客观答案的问题(如数学计算、事实问答) [3]。
- 组合使用方案:可以与 ToT 形成优势互补(利用 ToT 生成候选方案,再用 Self-Consistency 选出最优解) [3]。
推理模型时代的提示词最佳实践
- 技术演进背景:OpenAI o1/o3 及 Claude Extended Thinking 等新一代推理模型,已在内部实现了类似 ToT 的多步搜索 [3]。
- 提示工程的重心转移:目标从"教模型如何思考",转变为"如何让模型精准理解需求" [4]。
- 新一代撰写法则:需要为模型提供清晰的目标、完整的约束条件以及解答所需的相关上下文背景 [4]。
- 避坑建议:尽量少用死板的模板过度约束推理路径,应放手让具备推理能力的模型自主探索 [4]。
提示词策略实践决策树
- 无逻辑推理任务:直接使用直接提示(Direct Prompting)即可 [4]。
- 使用内置推理模型时:仅需定义清晰目标与约束,让模型自主发挥推理能力 [4]。
- 常规大模型的中低复杂度任务:1-3 步低复杂度任务选用 Zero-shot CoT,3-8 步中等复杂度选用 Few-shot CoT 配合自一致性 [4]。
- 常规大模型的高复杂度任务:对于超过 8 步或需要探索多条路径的任务,应直接采用 ToT 或 GoT 策略 [4]。
博客摘要 + 核心看点 点击展开
提示词工程进阶:从 Chain-of-Thought 到 Tree-of-Thought — summary
这里为您生成基于该文章的 SEO 友好博客摘要及核心看点:
SEO 友好博客摘要(约 150 字)
本文带您探索**提示词工程(Prompt Engineering)**的进阶之路,深度解析大模型推理技术的演进。从基础的直接提示,到改变范式的 Chain-of-Thought(思维链),再到解锁复杂任务的 Tree-of-Thought(思维树) 与 Graph-of-Thought(思维图) 结构化搜索策略 [1-3]。面对 OpenAI o1 等最新推理模型的崛起,文章为您揭秘提示词最佳实践的范式转变:从“引导思考”转向“定义目标与约束” [3, 4]。掌握这些高阶技巧,全面提升您的 AI 应用能力!
3 条核心看点
- 范式演进:揭秘从单线 CoT 到树状 ToT 及网状 GoT 的结构化搜索,打破推理路径依赖 [1-3]。
- 机制组合:结合 Self-Consistency(自一致性)的多路径采样与投票策略,显著提升回答准确率 [3]。
- 最新实战:在 o1 等推理模型时代,提示词重心已从“教模型思考”转向“清晰定义目标与约束” [3, 4]。
60 秒短视频脚本 点击展开
提示词工程进阶:从 Chain-of-Thought 到 Tree-of-Thought — video
这是一份为您量身定制的 60 秒短视频脚本,严格按照字数和结构要求编写:
【钩子开场】(14字)
还在让AI一步步思考?落伍啦![1]
【核心解说】
- 第一段(27字):
过去的思维链是单行道,中间出错就会全盘偏移,无法回退。[1, 2] - 第二段(28字):
如今思维树开启树状搜索,通过多分支智能评估与剪枝锁定最优解。[2] - 第三段(29字):
最新推理模型已内置搜索。写提示词只需设定清晰目标与完整约束。[3, 4]
【一句收束】
顺应提示词进化,精准掌控你的AI大脑!
课后巩固
与本文内容匹配的闪卡与测验,帮助巩固所学知识
延伸阅读
根据本文主题,为你推荐相关的学习资料