Medeo 工程拆解(续篇 2)
AI 导读
21) LLM 规划器(Planner):从自然语言到可执行 Patch 的“可控链路” 关键不是“让模型更聪明”,而是让它在可控轨道上输出:先定位(Locate)再规划(Plan)再校验(Validate)再执行(Execute)。 21.1 Planner 的输入 User Utterance:本轮用户指令 Project Digest:工程摘要(脚本/分镜/风格/约束) Focused...
21) LLM 规划器(Planner):从自然语言到可执行 Patch 的“可控链路”
关键不是“让模型更聪明”,而是让它在可控轨道上输出:先定位(Locate)再规划(Plan)再校验(Validate)再执行(Execute)。
21.1 Planner 的输入
- User Utterance:本轮用户指令
- Project Digest:工程摘要(脚本/分镜/风格/约束)
- Focused Snapshot:仅包含相关时间范围的对象列表
- Policies:预算、模型白名单、品牌/安全规则
- Tooling:可调用工具列表(locate、search、estimate…)
21.2 Planner 的输出
- Locate Result:用户说的“那段/第二段/12 秒”映射到 scene/clip IDs
- Patch JSON:严格 schema 的 ops 列表
- Human Summary:给用户看的改动说明(与 patch 对齐)
- Cost & Risk:预计 credits、耗时、可能风险(例如会重渲)
21.3 推荐的“多阶段”规划(比单次 prompt 稳很多)
Stage A: Normalize
- 把用户输入规范化成结构:{target_range?, target_scene?, change_type, constraints}
Stage B: Locate (tool + rules + LLM)
- 先用索引/规则定位候选 scene/clip,再让 LLM 选择最可能目标
- 产出:target_ids + confidence + fallback question(if needed)
Stage C: Plan
- 生成 patch(ops),每个 op 显式绑定对象 ID,不允许“模糊描述”
Stage D: Validate & Repair
- schema 校验失败 → 将错误回灌给模型让其修复(最多 N 次)
- 语义校验失败(越界/引用不存在)→ 自动重定位或请求用户澄清
Stage E: Execute
- 进入 DAG + Queue
Stage F: Summarize
- 用人话同步:改了哪里、预览何时可见、最终导出是否需要额外时间
22) 定位系统(Locator):把“那段/第二点/更快一些”精确映射到工程对象
现象级体验的隐藏关键:用户永远用模糊语言说话,但系统必须精确命中对象。
22.1 三种定位信号(建议全部实现)
时间信号
- “12 秒附近”“开头 5 秒”“结尾那段”
- 映射:timeline range → overlap clips
语义信号
- “第二个观点”“讲原因那段”“讲案例的地方”
- 映射:outline/scene summaries → scene_id
文本信号
- “把‘因此我们…’那句换掉”
- 映射:caption/vo transcript search → segment ids
UI 选择信号(最强)
- 用户在时间线上点选 clip/caption
- 映射:selected_object_id(直接锁定)
22.2 Locator 工具接口(示例)
// tool: locate_targets
input:
{
"project_id":"p_123",
"query": "把第二个观点那段节奏加快一点",
"hints": {"selected_ids":[], "cursor_time": 11.8}
}
output:
{
"candidates": [
{"type":"scene","id":"s2","range":[6.5,18.0],"score":0.86},
{"type":"clip","id":"clip_7","range":[11.2,14.3],"score":0.63}
],
"best": {"type":"scene","id":"s2"},
"confidence": 0.86
}
23) 风格系统(Style System):把“好看”变成模板、约束与可复用资产
23.1 Style Token(建议结构化)
- 主题:dark/light、品牌色、对比度
- 字幕:字体/描边/背景条/关键词高亮规则
- 镜头:动效强度、cut 密度、转场类型
- 音频:BGM 类型、ducking、目标 LUFS
23.2 Style Template 的复用
- 平台模板:Shorts/TikTok/Reels(安全区与节奏不同)
- 行业模板:电商/教育/工具测评(字幕与结构不同)
- 品牌模板:企业客户固定片头片尾、字体与色彩
23.3 Style Profile 示例
{
"style_id": "style_bold_pop_v2",
"caption": {
"font": "Inter-Bold",
"stroke_px": 6,
"shadow": true,
"highlight": {"mode":"keyword", "max_per_line":2}
},
"motion": {
"kenburns_strength": 0.35,
"transition": {"type":"whip", "duration_ms":240},
"cut_density_per_min": 24
},
"audio": {
"vo_target_lufs": -14,
"bgm_target_lufs": -18,
"ducking_db": -12,
"duck_attack_ms": 80,
"duck_release_ms": 220
},
"safe_area": {"top": 0.10, "bottom": 0.18}
}
24) Prompt / Tooling:把“提示词”产品化成可审计、可回放、可回归
不要把 prompt 写死在代码里。把它当成配置与版本,才能持续迭代。
24.1 Prompt 版本化(建议)
{
"prompt_id": "planner_patch_v6",
"purpose": "Chat → Patch",
"schema": "[email protected]",
"system": "你是视频工程规划器,只输出 JSON ...",
"fewshots": ["..."],
"constraints": ["不得输出自然语言", "必须绑定 clip_id", "..."],
"created_at": "2026-01-05",
"owner": "video-platform"
}
24.2 Prompt 回放(Replay)
- 记录:输入 context(脱敏)+ 输出 patch + validator 结果
- 用于:回归测试、线上事故追溯、A/B 比较
24.3 Tool-first(强推荐)
- 定位、搜索、估算都先用工具/规则做“硬事实”
- 让 LLM 做决策与生成 patch,而不是做“计算/检索”
25) 内容治理与策略:把风险前置到 Planning 与导出阶段
25.1 治理放在哪两处最有效
- Planning:在 patch 生成前,限制素材来源、模型白名单与内容类型
- Export:在 final 导出前做最后检查(字幕/音频/版权元数据)
25.2 最小策略对象(Policy)
- 禁止/限制的素材类型与来源
- 敏感词与合规规则(地区/行业)
- 企业客户的品牌词、可用字体/颜色、片头片尾
25.3 Policy 示例(概念)
{
"policy_id": "org_brand_policy_01",
"allowed_stock_sources": ["sourceA","sourceB"],
"allowed_models": ["fast_video_v1","hq_video_v2"],
"require_license_metadata": true,
"caption_safe_area_enforced": true,
"banned_terms": ["..."],
"watermark": {"enabled": false}
}
26) 现象级增长飞轮:工程系统如何反哺产品增长
26.1 飞轮 1:模板沉淀 → 更快成功率
- 从用户高频需求提炼 recipe
- recipe 让新用户“第一次就成功”
- 成功率提升 → 留存提升 → 更多数据
26.2 飞轮 2:可回放 → 快速迭代质量
- Patch/Job/Usage 全链路日志
- 定位失败、字幕越界、响度不稳 → 变成可量化指标
- 指标驱动迭代 → 质量提升 → 付费提升
26.3 飞轮 3:成本运营 → 更强定价与 SLA
- 知道每个 recipe 的单位成本与转化率
- 能对不同 tier 提供不同 SLA(preview 优先、final 排队)
- 能做到“更便宜/更快/更稳”的组合,形成壁垒
27) 全链路蓝图:把系统拆成可立即开工的模块清单
| 模块 | 你要实现的最小能力 | 第一版就要做的工程点 |
|---|---|---|
| Project Service | 工程文件 CRUD、revision、局部读取 | 稳定 ID、patch log、冲突检测 |
| Planner Service | Chat → Patch(JSON) | schema 验证、repair、policy 注入 |
| Locator Service | 语义/时间/文本定位 | 索引结构、候选输出、置信度 |
| Orchestrator | DAG、队列、重试、取消 | 幂等、优先级、分阶段扣费 |
| Render Service | Preview/Final、Segment Cache | 脏区间计算、拼接、缓存键 |
| Asset Service | 上传/检索/授权元数据 | hash 去重、签名 URL、隔离 |
| Billing/Credits | 估算、预扣、结算、账本 | usage_report、对账、申诉依据 |
| Observability | 日志/指标/追踪 | 质量门槛、告警、回归集 |
附录(再续):失败模式与防护(Failure Modes)清单
常见失败模式
- 定位错目标 → 改错段
- 字幕越界/被 UI 挡住
- 音频响度不稳、削波
- 渲染缓存失效 → 成本暴涨
- 队列雪崩 → 所有人都慢
- 重试重复扣费 → 争议
对应防护
- Locator + 置信度 + 候选确认
- Quality gate(导出前硬检测)
- 响度标准化 + clipping 检测
- Segment cache + 统一键策略
- 资源池隔离 + 限流 + 优先级
- op_id 幂等 + usage_report 账本
深度加工(NotebookLM 生成)
基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客,用于多场景复用
PPT 大纲(5-8 张幻灯片) 点击展开
Medeo 工程拆解(续篇 2) — ppt
这是一份基于您提供的《Medeo 工程拆解(续篇 2)》文章片段提取的 PPT 大纲,共包含 7 张幻灯片。
核心系统概述:LLM 规划器 (Planner)
- 实现“可控链路”: 将用户的自然语言指令转化为可执行的 Patch,核心不在于模型多聪明,而在于其行为可控 [1]。
- 标准处理流: 遵循“先定位 (Locate) → 再规划 (Plan) → 再校验 (Validate) → 再执行 (Execute)”的严格步骤 [1]。
- 多阶段规划机制 (Stage A-F): 类似“编译器前端”,经历规范化、定位、生成、校验、执行与总结同步,比单次 prompt 更加稳定 [1], [2]。
- 结构化输出约束: 强制 Planner 输出定位结果、Patch JSON、用户改动说明 (Human Summary) 以及成本和风险预估 [1]。
精准命中目标:定位系统 (Locator)
- 解决核心痛点: 用户的语言往往是模糊的(如“那段”、“第二点”),系统必须能够精准将其映射到具体的工程对象 [2]。
- 多维定位信号: 综合运用时间信号(Timeline)、语义信号(Scene ID)、文本信号(Caption)以及最强烈的 UI 选定信号 [2]。
- 标准化工具接口: Locator 输出包含候选对象列表 (candidates)、最优推荐及置信度分数 (confidence) [2]。
- 兜底与容错: 当定位失败时“不要让模型猜”,而是通过请求用户点选或提供 A/B 候选项来确认,确保体验稳定并节省成本 [2]。
美学与规范:风格系统 (Style System)
- 风格资产化: 把抽象的“好看”转化为具体的模板、约束条件与可复用资产 [2]。
- 结构化 Style Token: 精细控制主题色、字幕规则(字体/背景条/高亮)、镜头动效强度及音频规范(BGM/Ducking)等维度 [2]。
- 坚持 Tool-first 理念: 定位、搜索等硬性事实交由系统工具和规则处理,LLM 仅负责高阶决策与 Patch 生成 [3]。
- 规避全盘重写: 绝不要把“全工程文件”直接喂给模型重写,以防止内容漂移、成本失控和回滚困难 [3]。
安全与合规:内容治理与策略 (Policy)
- 治理全面前置: 审核不能仅是“最后加个按钮”,必须渗透进生成前、执行中、导出前的每一个工程环节 [3]。
- 双重拦截节点: 在 Planning 阶段限制素材来源和模型白名单;在 Export 阶段做最终检查(字幕/音频/版权等) [3]。
- 最小策略对象 (Policy): 将禁用素材、合规敏感词、企业品牌词、可用字体和水印规则等沉淀为可配置策略 [3]。
- 系统化风控: 通过工程手段强制贯彻 Policy,降低线上事故风险并满足企业级客户的严苛约束 [3]。
商业转化:现象级增长飞轮
- 飞轮 1(成功率提升): 从高频需求中提炼 Recipe/模板,让新用户第一次就成功,带动留存与数据增长 [3]。
- 飞轮 2(指标驱动质量): 建立全链路日志(Patch/Job/Usage),通过量化指标(如定位失败率、响度不稳等)快速迭代质量 [3]。
- 飞轮 3(成本精细化运营): 精确掌握每个配方的成本与转化率,支撑差异化定价与服务等级 (如 Preview 优先与 Final 排队) [3], [4]。
- 工程底色: 所有“体验提升”的背后,必然是一个可量化的指标与一个可迭代的配置 [4]。
落地执行:全链路蓝图与模块划分
- 解析与管控服务: Project Service 负责工程源文件 CRUD 及冲突检测;Planner/Locator Service 负责指令解析与精确对象定位 [4]。
- 计算与资产调度: Orchestrator 负责 DAG 与队列调度;Render Service 负责基于脏区间的高效渲染;Asset Service 统筹素材检索与授权 [4]。
- 商业与监控底层: Billing 负责算力估算与结算;Observability 把控系统质量门槛、全链路追踪与回归测试 [4]。
- 高标准交付: 每一个拆解的模块都应当可以进一步细化为包含接口、数据结构、状态机和 SLO 的技术设计文档 (Tech Spec) [4]。
容灾与兜底:失败模式与防护 (Failure Modes)
- 精准防错防护: 针对“改错段”和“重复扣费”,通过 Locator 置信度加用户确认、以及基于 op_id 的幂等账本进行拦截 [4]。
- 视听质量防护: 针对“字幕越界/被挡”和“音频削波”,在导出前引入 Quality Gate 强制检测并执行响度标准化 [4]。
- 性能与成本防护: 针对“渲染缓存失效”和“队列雪崩”,引入 Segment cache 统一键策略,以及资源池隔离和限流排队机制 [4]。
- 终极产品理念: 失败模式也是产品体验的一部分;现象级产品容许失败,但必须保证失败时“可解释、可恢复、可继续迭代” [4]。
博客摘要 + 核心看点 点击展开
Medeo 工程拆解(续篇 2) — summary
SEO 友好博客摘要:
本文深度拆解了 AI 视频工程自动化的核心架构设计,为您揭秘现象级产品背后的技术底座 [1, 2]。文章重点探讨了 LLM 规划器如何通过多阶段处理,将用户模糊的自然语言转化为精确且可控的执行指令 [3]。同时,详细解析了结合时间与语义等信号的智能定位系统,以及支持高效复用的结构化风格资产 [4, 5]。结合版本化的提示词管理与前置内容治理策略,本文提供了从核心模块拆解到失败防护的全链路系统蓝图,是构建高可用、高留存视频平台的必读技术指南 [1, 2, 5]。
核心看点:
- LLM 规划器核心:通过先定位再规划的多阶段流程,将自然语言转为精准可控的执行动作 [3]。
- 精准定位与风格系统:融合多路信号精准映射目标,将视频风格提取为结构化的高效复用资产 [4, 5]。
- 全链路工程蓝图:拆解系统核心模块,前置合规检查与失败防护,构筑可量化迭代的稳定底座 [1, 2]。
60 秒短视频脚本 点击展开
Medeo 工程拆解(续篇 2) — video
做AI视频,光靠模型聪明没用!
一靠规划器:让模型在可控轨道输出,化自然语言为精准操作 [1]。
二靠定位系统:无惧模糊表达,依靠多维信号精准命中目标对象 [2]。
三靠风格系统:将美感化为结构模板,让模型修改变为参数调配 [2, 3]。
现象级体验的背后,是极致可控的工程底座与可迭代的配置 [4]!
课后巩固
与本文内容匹配的闪卡与测验,帮助巩固所学知识
延伸阅读
根据本文主题,为你推荐相关的学习资料