Medeo 工程拆解（续篇 2）

原创灵阙教研团队

A 推荐进阶研究报告 | 约 6 分钟阅读更新于 2026-01-05

AI 导读

21) LLM 规划器（Planner）：从自然语言到可执行 Patch 的“可控链路” 关键不是“让模型更聪明”，而是让它在可控轨道上输出：先定位（Locate）再规划（Plan）再校验（Validate）再执行（Execute）。 21.1 Planner 的输入 User Utterance：本轮用户指令 Project Digest：工程摘要（脚本/分镜/风格/约束） Focused...

21) LLM 规划器（Planner）：从自然语言到可执行 Patch 的“可控链路”

关键不是“让模型更聪明”，而是让它在可控轨道上输出：先定位（Locate）再规划（Plan）再校验（Validate）再执行（Execute）。

21.1 Planner 的输入

User Utterance：本轮用户指令
Project Digest：工程摘要（脚本/分镜/风格/约束）
Focused Snapshot：仅包含相关时间范围的对象列表
Policies：预算、模型白名单、品牌/安全规则
Tooling：可调用工具列表（locate、search、estimate…）

21.2 Planner 的输出

Locate Result：用户说的“那段/第二段/12 秒”映射到 scene/clip IDs
Patch JSON：严格 schema 的 ops 列表
Human Summary：给用户看的改动说明（与 patch 对齐）
Cost & Risk：预计 credits、耗时、可能风险（例如会重渲）

21.3 推荐的“多阶段”规划（比单次 prompt 稳很多）

Stage A: Normalize
- 把用户输入规范化成结构：{target_range?, target_scene?, change_type, constraints}

Stage B: Locate (tool + rules + LLM)
- 先用索引/规则定位候选 scene/clip，再让 LLM 选择最可能目标
- 产出：target_ids + confidence + fallback question(if needed)

Stage C: Plan
- 生成 patch（ops），每个 op 显式绑定对象 ID，不允许“模糊描述”

Stage D: Validate & Repair
- schema 校验失败 → 将错误回灌给模型让其修复（最多 N 次）
- 语义校验失败（越界/引用不存在）→ 自动重定位或请求用户澄清

Stage E: Execute
- 进入 DAG + Queue

Stage F: Summarize
- 用人话同步：改了哪里、预览何时可见、最终导出是否需要额外时间

实战建议：把 Planner 当成“编译器前端”：词法（normalize）→ 语义（locate）→ 生成 IR（patch）→ 静态检查（validate）。

22) 定位系统（Locator）：把“那段/第二点/更快一些”精确映射到工程对象

现象级体验的隐藏关键：用户永远用模糊语言说话，但系统必须精确命中对象。

22.1 三种定位信号（建议全部实现）

时间信号

“12 秒附近”“开头 5 秒”“结尾那段”
映射：timeline range → overlap clips

语义信号

“第二个观点”“讲原因那段”“讲案例的地方”
映射：outline/scene summaries → scene_id

文本信号

“把‘因此我们…’那句换掉”
映射：caption/vo transcript search → segment ids

UI 选择信号（最强）

用户在时间线上点选 clip/caption
映射：selected_object_id（直接锁定）

22.2 Locator 工具接口（示例）

// tool: locate_targets
input:
{
  "project_id":"p_123",
  "query": "把第二个观点那段节奏加快一点",
  "hints": {"selected_ids":[], "cursor_time": 11.8}
}

output:
{
  "candidates": [
    {"type":"scene","id":"s2","range":[6.5,18.0],"score":0.86},
    {"type":"clip","id":"clip_7","range":[11.2,14.3],"score":0.63}
  ],
  "best": {"type":"scene","id":"s2"},
  "confidence": 0.86
}

定位失败怎么办：不要让模型“猜”。要么要求用户点选目标、要么给出候选让用户选 A/B（这比反复重生成要省成本且体验更稳）。

23) 风格系统（Style System）：把“好看”变成模板、约束与可复用资产

23.1 Style Token（建议结构化）

主题：dark/light、品牌色、对比度
字幕：字体/描边/背景条/关键词高亮规则
镜头：动效强度、cut 密度、转场类型
音频：BGM 类型、ducking、目标 LUFS

23.2 Style Template 的复用

平台模板：Shorts/TikTok/Reels（安全区与节奏不同）
行业模板：电商/教育/工具测评（字幕与结构不同）
品牌模板：企业客户固定片头片尾、字体与色彩

23.3 Style Profile 示例

{
  "style_id": "style_bold_pop_v2",
  "caption": {
    "font": "Inter-Bold",
    "stroke_px": 6,
    "shadow": true,
    "highlight": {"mode":"keyword", "max_per_line":2}
  },
  "motion": {
    "kenburns_strength": 0.35,
    "transition": {"type":"whip", "duration_ms":240},
    "cut_density_per_min": 24
  },
  "audio": {
    "vo_target_lufs": -14,
    "bgm_target_lufs": -18,
    "ducking_db": -12,
    "duck_attack_ms": 80,
    "duck_release_ms": 220
  },
  "safe_area": {"top": 0.10, "bottom": 0.18}
}

工程收益：风格系统一旦结构化，LLM 的修改就变成“改 style token”，而不是让模型凭感觉改渲染参数。

24) Prompt / Tooling：把“提示词”产品化成可审计、可回放、可回归

不要把 prompt 写死在代码里。把它当成配置与版本，才能持续迭代。

24.1 Prompt 版本化（建议）

{
  "prompt_id": "planner_patch_v6",
  "purpose": "Chat → Patch",
  "schema": "[email protected]",
  "system": "你是视频工程规划器，只输出 JSON ...",
  "fewshots": ["..."],
  "constraints": ["不得输出自然语言", "必须绑定 clip_id", "..."],
  "created_at": "2026-01-05",
  "owner": "video-platform"
}

24.2 Prompt 回放（Replay）

记录：输入 context（脱敏）+ 输出 patch + validator 结果
用于：回归测试、线上事故追溯、A/B 比较

24.3 Tool-first（强推荐）

定位、搜索、估算都先用工具/规则做“硬事实”
让 LLM 做决策与生成 patch，而不是做“计算/检索”

不要做的事：把“全工程文件”喂给模型让它重写。那会导致漂移、不可控、难以计费与回滚。

25) 内容治理与策略：把风险前置到 Planning 与导出阶段

25.1 治理放在哪两处最有效

Planning：在 patch 生成前，限制素材来源、模型白名单与内容类型
Export：在 final 导出前做最后检查（字幕/音频/版权元数据）

25.2 最小策略对象（Policy）

禁止/限制的素材类型与来源
敏感词与合规规则（地区/行业）
企业客户的品牌词、可用字体/颜色、片头片尾

25.3 Policy 示例（概念）

{
  "policy_id": "org_brand_policy_01",
  "allowed_stock_sources": ["sourceA","sourceB"],
  "allowed_models": ["fast_video_v1","hq_video_v2"],
  "require_license_metadata": true,
  "caption_safe_area_enforced": true,
  "banned_terms": ["..."],
  "watermark": {"enabled": false}
}

工程现实：治理不是“最后加个审核按钮”。它必须渗透进“生成前、执行中、导出前”的每一步。

26) 现象级增长飞轮：工程系统如何反哺产品增长

26.1 飞轮 1：模板沉淀 → 更快成功率

从用户高频需求提炼 recipe
recipe 让新用户“第一次就成功”
成功率提升 → 留存提升 → 更多数据

26.2 飞轮 2：可回放 → 快速迭代质量

Patch/Job/Usage 全链路日志
定位失败、字幕越界、响度不稳 → 变成可量化指标
指标驱动迭代 → 质量提升 → 付费提升

26.3 飞轮 3：成本运营 → 更强定价与 SLA

知道每个 recipe 的单位成本与转化率
能对不同 tier 提供不同 SLA（preview 优先、final 排队）
能做到“更便宜/更快/更稳”的组合，形成壁垒

现象级的工程底色：所有“体验提升”背后都有一个可量化的指标与一个可迭代的配置（recipe/style/prompt/policy）。

27) 全链路蓝图：把系统拆成可立即开工的模块清单

模块	你要实现的最小能力	第一版就要做的工程点
Project Service	工程文件 CRUD、revision、局部读取	稳定 ID、patch log、冲突检测
Planner Service	Chat → Patch（JSON）	schema 验证、repair、policy 注入
Locator Service	语义/时间/文本定位	索引结构、候选输出、置信度
Orchestrator	DAG、队列、重试、取消	幂等、优先级、分阶段扣费
Render Service	Preview/Final、Segment Cache	脏区间计算、拼接、缓存键
Asset Service	上传/检索/授权元数据	hash 去重、签名 URL、隔离
Billing/Credits	估算、预扣、结算、账本	usage_report、对账、申诉依据
Observability	日志/指标/追踪	质量门槛、告警、回归集

如果你要做技术尽调式输出：以上每个模块都可以展开成 Tech Spec（接口、数据结构、状态机、SLO、失败模式）。

附录（再续）：失败模式与防护（Failure Modes）清单

常见失败模式

定位错目标 → 改错段
字幕越界/被 UI 挡住
音频响度不稳、削波
渲染缓存失效 → 成本暴涨
队列雪崩 → 所有人都慢
重试重复扣费 → 争议

对应防护

Locator + 置信度 + 候选确认
Quality gate（导出前硬检测）
响度标准化 + clipping 检测
Segment cache + 统一键策略
资源池隔离 + 限流 + 优先级
op_id 幂等 + usage_report 账本

终极建议：把“失败模式”当成产品体验的一部分。现象级产品往往不是从不失败，而是失败时仍然可解释、可恢复、可继续迭代。

深度加工（NotebookLM 生成）

基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客，用于多场景复用

PPT 大纲（5-8 张幻灯片）点击展开

Medeo 工程拆解（续篇 2） — ppt

这是一份基于您提供的《Medeo 工程拆解（续篇 2）》文章片段提取的 PPT 大纲，共包含 7 张幻灯片。

核心系统概述：LLM 规划器 (Planner)

实现“可控链路”： 将用户的自然语言指令转化为可执行的 Patch，核心不在于模型多聪明，而在于其行为可控 [1]。
标准处理流： 遵循“先定位 (Locate) → 再规划 (Plan) → 再校验 (Validate) → 再执行 (Execute)”的严格步骤 [1]。
多阶段规划机制 (Stage A-F)： 类似“编译器前端”，经历规范化、定位、生成、校验、执行与总结同步，比单次 prompt 更加稳定 [1], [2]。
结构化输出约束： 强制 Planner 输出定位结果、Patch JSON、用户改动说明 (Human Summary) 以及成本和风险预估 [1]。

精准命中目标：定位系统 (Locator)

解决核心痛点： 用户的语言往往是模糊的（如“那段”、“第二点”），系统必须能够精准将其映射到具体的工程对象 [2]。
多维定位信号： 综合运用时间信号（Timeline）、语义信号（Scene ID）、文本信号（Caption）以及最强烈的 UI 选定信号 [2]。
标准化工具接口： Locator 输出包含候选对象列表 (candidates)、最优推荐及置信度分数 (confidence) [2]。
兜底与容错： 当定位失败时“不要让模型猜”，而是通过请求用户点选或提供 A/B 候选项来确认，确保体验稳定并节省成本 [2]。

美学与规范：风格系统 (Style System)

风格资产化： 把抽象的“好看”转化为具体的模板、约束条件与可复用资产 [2]。
结构化 Style Token： 精细控制主题色、字幕规则（字体/背景条/高亮）、镜头动效强度及音频规范（BGM/Ducking）等维度 [2]。
坚持 Tool-first 理念： 定位、搜索等硬性事实交由系统工具和规则处理，LLM 仅负责高阶决策与 Patch 生成 [3]。
规避全盘重写： 绝不要把“全工程文件”直接喂给模型重写，以防止内容漂移、成本失控和回滚困难 [3]。

安全与合规：内容治理与策略 (Policy)

治理全面前置： 审核不能仅是“最后加个按钮”，必须渗透进生成前、执行中、导出前的每一个工程环节 [3]。
双重拦截节点： 在 Planning 阶段限制素材来源和模型白名单；在 Export 阶段做最终检查（字幕/音频/版权等） [3]。
最小策略对象 (Policy)： 将禁用素材、合规敏感词、企业品牌词、可用字体和水印规则等沉淀为可配置策略 [3]。
系统化风控： 通过工程手段强制贯彻 Policy，降低线上事故风险并满足企业级客户的严苛约束 [3]。

商业转化：现象级增长飞轮

飞轮 1（成功率提升）： 从高频需求中提炼 Recipe/模板，让新用户第一次就成功，带动留存与数据增长 [3]。
飞轮 2（指标驱动质量）： 建立全链路日志（Patch/Job/Usage），通过量化指标（如定位失败率、响度不稳等）快速迭代质量 [3]。
飞轮 3（成本精细化运营）： 精确掌握每个配方的成本与转化率，支撑差异化定价与服务等级 (如 Preview 优先与 Final 排队) [3], [4]。
工程底色： 所有“体验提升”的背后，必然是一个可量化的指标与一个可迭代的配置 [4]。

落地执行：全链路蓝图与模块划分

解析与管控服务： Project Service 负责工程源文件 CRUD 及冲突检测；Planner/Locator Service 负责指令解析与精确对象定位 [4]。
计算与资产调度： Orchestrator 负责 DAG 与队列调度；Render Service 负责基于脏区间的高效渲染；Asset Service 统筹素材检索与授权 [4]。
商业与监控底层： Billing 负责算力估算与结算；Observability 把控系统质量门槛、全链路追踪与回归测试 [4]。
高标准交付： 每一个拆解的模块都应当可以进一步细化为包含接口、数据结构、状态机和 SLO 的技术设计文档 (Tech Spec) [4]。

容灾与兜底：失败模式与防护 (Failure Modes)

精准防错防护： 针对“改错段”和“重复扣费”，通过 Locator 置信度加用户确认、以及基于 op_id 的幂等账本进行拦截 [4]。
视听质量防护： 针对“字幕越界/被挡”和“音频削波”，在导出前引入 Quality Gate 强制检测并执行响度标准化 [4]。
性能与成本防护： 针对“渲染缓存失效”和“队列雪崩”，引入 Segment cache 统一键策略，以及资源池隔离和限流排队机制 [4]。
终极产品理念： 失败模式也是产品体验的一部分；现象级产品容许失败，但必须保证失败时“可解释、可恢复、可继续迭代” [4]。

博客摘要 + 核心看点点击展开

Medeo 工程拆解（续篇 2） — summary

SEO 友好博客摘要：

本文深度拆解了 AI 视频工程自动化的核心架构设计，为您揭秘现象级产品背后的技术底座 [1, 2]。文章重点探讨了 LLM 规划器如何通过多阶段处理，将用户模糊的自然语言转化为精确且可控的执行指令 [3]。同时，详细解析了结合时间与语义等信号的智能定位系统，以及支持高效复用的结构化风格资产 [4, 5]。结合版本化的提示词管理与前置内容治理策略，本文提供了从核心模块拆解到失败防护的全链路系统蓝图，是构建高可用、高留存视频平台的必读技术指南 [1, 2, 5]。

核心看点：