AI视频生成的Prompt工程

原创灵阙教研团队

A 推荐进阶深度解析 | 约 9 分钟阅读更新于 2026-02-28

AI 导读

AI视频生成的Prompt工程引言视频 Prompt 工程与图像 Prompt 有本质差异：视频不仅需要描述空间构图，还需要描述时间维度上的变化——运动、节奏、镜头语言。一个优秀的视频 Prompt 是导演语言、摄影语言和文学描述的融合体。本文系统梳理视频 Prompt 的核心要素、结构框架和实战技巧。一、视频 Prompt 的六维结构一个完整的视频 Prompt 应当覆盖六个维度：...

AI视频生成的Prompt工程

引言

视频 Prompt 工程与图像 Prompt 有本质差异：视频不仅需要描述空间构图，还需要描述时间维度上的变化——运动、节奏、镜头语言。一个优秀的视频 Prompt 是导演语言、摄影语言和文学描述的融合体。本文系统梳理视频 Prompt 的核心要素、结构框架和实战技巧。

一、视频 Prompt 的六维结构

一个完整的视频 Prompt 应当覆盖六个维度：

┌─────────────────────────────────────────────┐
│              视频 Prompt 六维模型             │
├─────────────────────────────────────────────┤
│  1. 主体（Subject）    — 谁/什么在画面中      │
│  2. 动作（Action）     — 在做什么             │
│  3. 场景（Setting）    — 在哪里               │
│  4. 镜头（Camera）     — 怎么拍               │
│  5. 风格（Style）      — 什么美学             │
│  6. 氛围（Mood）       — 什么情绪             │
└─────────────────────────────────────────────┘

1.1 维度权重分配

不同平台对各维度的敏感度不同：

维度	Sora	Veo 2	Kling	Runway
主体描述	高	高	高	高
动作描述	极高	高	高	中（靠 Motion Brush）
场景细节	高	极高	中	中
镜头语言	高	极高	高	中
风格关键词	中	高	高	高
氛围/情绪	高	高	中	中

二、镜头语言词汇表

2.1 景别（Shot Size）

镜头景别是视频 Prompt 中最基础也最重要的控制参数：

景别	英文	效果	适用场景
远景	Extreme Wide Shot (EWS)	展示环境全貌，人物极小	风景、建筑、开场建立
全景	Wide Shot (WS)	人物完整入画，环境清晰	场景建立、动作全貌
中景	Medium Shot (MS)	腰部以上	对话、日常动作
中近景	Medium Close-up (MCU)	胸部以上	采访、情感表达
近景	Close-up (CU)	面部填满画面	情感、反应、细节
特写	Extreme Close-up (ECU)	眼睛/嘴唇/手指	情绪高潮、质感展示

Prompt 示例：

# 远景 → 近景 的心理递进
EWS: "Vast desert landscape, a lone figure walking toward camera,
      golden hour, drone shot pulling back to reveal endless dunes"

CU:  "Close-up of a woman's face, tears streaming down her cheeks,
      soft backlighting creating a halo effect, shallow depth of field"

2.2 镜头运动（Camera Movement）

运动类型	英文	描述	情绪效果
推镜头	Push in / Dolly in	相机向前移动接近主体	紧张、聚焦、揭示
拉镜头	Pull out / Dolly out	相机向后移动远离主体	孤独、揭示全貌
横移	Tracking shot / Dolly	相机水平跟随主体	跟随、叙事推进
摇镜头	Pan (水平) / Tilt (垂直)	相机原地旋转	环境展示、引导视线
升降	Crane / Boom	相机上升或下降	宏大、史诗感
手持	Handheld	轻微晃动的主观视角	真实、紧迫、纪录片感
稳定器	Steadicam	平滑的长镜头跟随	沉浸、电影级
环绕	Orbit / 360	围绕主体旋转	强调、戏剧性
无人机	Drone shot	航拍视角	壮阔、自由
俯冲	Swooping	从高处快速下降	冲击力、动作感

Prompt 中的运动叠加：

# 单一运动
"Slow dolly in toward a vintage typewriter on a desk"

# 复合运动
"Camera starts with a high crane shot looking down at a busy intersection,
 then slowly descends and transitions into a tracking shot following
 a yellow taxi through the streets"

# 运动节奏
"Rapid handheld camera following a parkour runner through narrow alleyways,
 sudden stop and slow push-in on his face as he catches his breath"

2.3 镜头角度（Camera Angle）

角度	英文	心理暗示
平视	Eye level	中性、客观
仰拍	Low angle	权力、威严、高大
俯拍	High angle	渺小、脆弱
鸟瞰	Bird's eye view	全局、上帝视角
虫眼视角	Worm's eye view	极端仰视、戏剧性
荷兰角	Dutch angle / Canted	不安、紧张、异常
POV	Point of view	主观、沉浸
OTS	Over the shoulder	对话、叙事

三、Prompt 结构模板

3.1 基础模板

[镜头/景别], [主体描述], [动作/事件], [场景/环境],
[光线/时间], [风格/美学], [氛围/情绪]

示例：

Medium shot, a young chef in white uniform,
skillfully tossing vegetables in a wok with flames rising,
inside a bustling restaurant kitchen with steam and warm lighting,
golden hour light streaming through windows,
cinematic, shot on 35mm film,
energetic and passionate atmosphere

3.2 叙事型模板（适合长视频）

[开场状态] → [触发事件] → [发展过程] → [结束状态]

示例：

A serene mountain lake at dawn, mist hovering over still water.
A single stone drops into the center, creating expanding ripples.
The ripples grow larger, disturbing the reflections of pine trees.
Camera slowly pulls back to reveal a child standing at the water's edge,
watching the ripples reach the shore. Cinematic, contemplative mood.

3.3 技术控制模板（适合精确控制）

Shot: [景别 + 角度 + 运动]
Subject: [主体 + 着装 + 表情]
Action: [动作 + 速度 + 方向]
Environment: [地点 + 天气 + 时间]
Lighting: [光源 + 色温 + 方向]
Style: [电影参考 + 色彩基调 + 后期风格]
Technical: [帧率 + 景深 + 镜头类型]

四、风格控制关键词

4.1 电影风格

风格	关键词组合	特征
好莱坞大片	`cinematic, anamorphic, film grain, shallow DOF`	宽银幕、浅景深
独立电影	`indie film, natural lighting, handheld, muted colors`	自然、真实
黑色电影	`film noir, high contrast, dramatic shadows, venetian blinds`	高对比、阴影
赛博朋克	`cyberpunk, neon lights, rain-slicked streets, holographic`	霓虹、未来城市
韦斯安德森	`Wes Anderson style, symmetrical, pastel colors, centered framing`	对称、粉彩
王家卫	`Wong Kar-wai style, blurred motion, saturated colors, neon`	暧昧、色彩浓烈

4.2 技术参数模拟

# 模拟不同摄影机
"Shot on ARRI Alexa, natural skin tones, wide dynamic range"
"Shot on RED Komodo, sharp detail, slightly cool color science"
"Shot on 16mm Bolex, heavy grain, vintage color palette"
"Shot on iPhone, vertical format, casual framing"

# 模拟不同镜头
"Shot with 85mm f/1.4 lens, creamy bokeh, shallow depth of field"
"Shot with 24mm wide angle, slight barrel distortion, deep focus"
"Shot with 200mm telephoto, compressed perspective, foreground blur"
"Anamorphic lens flares, oval bokeh, 2.39:1 aspect ratio"

4.3 光线控制

# 自然光
"Golden hour, warm backlight, long shadows"
"Overcast sky, soft diffused lighting, no harsh shadows"
"Blue hour, cool ambient light, city lights emerging"
"Harsh midday sun, strong shadows, high contrast"

# 人工光
"Single key light from above, dramatic Rembrandt lighting"
"Neon signs casting colored reflections on wet pavement"
"Practical lights only, warm tungsten bulbs, cozy atmosphere"
"Studio lighting, three-point setup, clean and professional"

五、常见问题与解决方案

5.1 运动模糊与抖动

问题：生成的视频运动不自然，出现果冻效应或过度模糊。

解决：

# 避免
"Fast camera movement"  ← 太笼统

# 推荐
"Smooth steadicam tracking shot at walking pace,
 24fps cinematic motion blur"  ← 明确速度和技术参数

5.2 人物一致性

问题：在较长视频中，人物外观发生变化（衣服颜色改变、面部特征漂移）。

解决：

# 在 prompt 中强化人物特征锚点
"A woman with shoulder-length black hair, wearing a red leather jacket
 and round gold-rimmed glasses, consistent appearance throughout"

# 使用 Image-to-Video 模式，以参考图固定外观

5.3 物理不合理

问题：物体穿透、液体行为异常、重力错误。

解决：

# 避免物理复杂场景的过度描述
# 不要：
"Water splashing in slow motion while a ball bounces and a bird flies"

# 推荐：聚焦单一物理现象
"Close-up of a single water droplet falling into a still pool,
 creating concentric ripples, shot at 120fps slow motion"

5.4 文字渲染

问题：AI 视频模型普遍无法正确渲染文字。

解决：

后期叠加文字（推荐）
使用实物道具（书本、招牌）作为参考图输入
在 Prompt 中避免要求精确文字

六、平台特异性技巧

6.1 Sora 专用技巧

# Sora 响应自然语言叙事，偏好故事性描述
"A grandmother teaches her granddaughter to make dumplings
 in a warm kitchen. Flour dusts the wooden table. The grandmother's
 hands move with practiced ease as the child watches intently.
 Steam rises from a bamboo steamer in the background."

6.2 Kling 专用技巧

# Kling 对中文理解更好，可直接用中文 prompt
"一位穿着旗袍的女子在苏州园林中撑伞漫步，
 细雨纷飞，石板路上倒映着红墙绿瓦，
 远处隐约传来古琴声，
 电影级画面，浅景深，暖色调"

6.3 Runway 专用技巧

# Runway 依赖 Motion Brush 做精确控制
# 文本 prompt 保持简洁，重点控制静态构图
"A still life of flowers on a windowsill,
 warm afternoon light, painted in oil"
# 然后用 Motion Brush 指定：
# - 花瓣区域：轻微摇摆
# - 窗帘区域：缓慢飘动
# - 光线区域：微妙变化

七、Prompt 工程工作流

7.1 迭代优化流程

第一轮：基础描述 → 生成 → 评估主体/动作是否正确
    ↓
第二轮：加入镜头语言 → 生成 → 评估构图/运动是否到位
    ↓
第三轮：加入风格/氛围 → 生成 → 评估整体美感
    ↓
第四轮：微调参数 → 生成 → 选出最佳结果
    ↓
后期：剪辑 + 调色 + 音频 → 最终成品

7.2 Prompt 版本管理

{
  "project": "品牌宣传片",
  "scene": "03_产品展示",
  "version": "v4",
  "prompt": "Extreme close-up of a luxury watch...",
  "platform": "veo2",
  "settings": {
    "aspect_ratio": "16:9",
    "duration": "8s",
    "seed": 42
  },
  "score": 8.5,
  "notes": "v3 手部有畸变，v4 用 ECU 避开手部"
}

7.3 Negative Prompt 策略

# 通用 Negative Prompt
"blurry, low quality, distorted, deformed, watermark, text overlay,
 flickering, jittery, abrupt cuts, morphing artifacts,
 unnatural skin, extra fingers, missing limbs"

# 场景特定
# 人物场景追加：
"cross-eyed, asymmetric face, uncanny valley"

# 风景场景追加：
"oversaturated, HDR artifacts, lens distortion"

八、进阶：多镜头脚本编排

对于多镜头视频项目，Prompt 工程需要升级为"视频脚本"级别：

## 场景 1：开场（5s）
镜头：Drone shot, slowly descending
画面：日出时分的城市天际线
运动：从高空缓慢降落至街道层面
音频提示：环境白噪音 → 城市苏醒的声音

## 场景 2：人物介绍（5s）
镜头：Medium shot, tracking
画面：主角骑自行车穿过老城区
运动：侧面跟拍，背景虚化
音频提示：自行车链条声、晨风

## 场景 3：到达（5s）
镜头：Wide shot → Push in
画面：主角停车，走入咖啡店
运动：从全景推到中景
音频提示：门铃声、咖啡机声

总结

视频 Prompt 工程的核心在于将导演的视觉语言转化为 AI 可理解的文本描述。掌握景别、运动、角度的专业词汇，建立结构化的 Prompt 模板，并通过迭代优化逐步逼近理想效果。随着模型能力的提升，Prompt 的表达空间将越来越大，从"描述画面"走向"编排叙事"。

Maurice | [email protected]

深度加工（NotebookLM 生成）

基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客，用于多场景复用

PPT 大纲（5-8 张幻灯片）点击展开

AI视频生成的Prompt工程 — ppt

幻灯片 1：AI视频生成的 Prompt 工程引言

核心差异：与图像 Prompt 不同，视频不仅需要描述空间构图，更需要描述时间维度上的变化，包括运动、节奏和镜头语言 [1]。
概念定义：一个优秀的视频 Prompt 是导演语言、摄影语言和文学描述的融合体 [1]。
终极目标：将导演的视觉语言转化为 AI 可理解的文本描述，从单纯的“描述画面”逐步走向“编排叙事” [2]。

幻灯片 2：视频 Prompt 的六维结构模型

六大核心要素：完整的 Prompt 应当覆盖主体（谁/什么）、动作（做什么）、场景（在哪里）、镜头（怎么拍）、风格（美学）和氛围（情绪）这六个维度 [1]。
平台权重差异：不同 AI 视频平台对各维度的敏感度有所不同，需要针对性调整侧重点 [1]。
权重应用示例：Sora 对动作描述敏感度极高，Veo 2 对场景细节和镜头语言极其敏感，而 Runway 的动作控制更多依赖于 Motion Brush [1]。

幻灯片 3：核心技术：掌控专业镜头语言

景别（Shot Size）：最基础的控制参数，通过远景（EWS）、中景（MS）、特写（ECU）等决定画面的信息量与情感表达强度 [1]。
镜头运动（Camera Movement）：使用推拉（Push in / Pull out）、摇移（Pan / Tracking）或航拍等指令，为视频注入紧张、孤独或宏大的情绪体验 [3]。
镜头角度（Camera Angle）：通过平视、仰拍（带来威严感）、俯拍（带来渺小感）等角度，赋予画面特定的心理暗示与戏剧张力 [4]。
组合与节奏：在 Prompt 中可以叠加单一运动与复合运动，并设计运动的停顿与节奏变化 [3, 4]。

幻灯片 4：实用的 Prompt 结构模板

基础构图模板：按照“[镜头/景别], [主体描述], [动作/事件], [场景/环境], [光线/时间], [风格/美学], [氛围/情绪]”的标准顺序组合关键词 [4]。
叙事型模板：专为长视频设计，采用“[开场状态] → [触发事件] → [发展过程] → [结束状态]”的时间线逻辑结构 [4, 5]。
技术控制模板：适用于高精度控制，将参数细分为 Shot、Subject、Action、Environment、Lighting、Style 和 Technical 七大模块明确设定 [5]。

幻灯片 5：电影级美学与风格塑造

电影风格模拟：使用特定组合词控制视觉基调，如“好莱坞大片”（宽银幕/浅景深）、“赛博朋克”（霓虹/未来）或“韦斯安德森”（对称/粉彩） [5]。
摄影机与镜头仿真：通过 Prompt 指定摄影机型号（如 ARRI Alexa、16mm Bolex）和镜头焦段（如 85mm 浅景深、24mm 广角）来还原物理设备的质感 [5, 6]。
专业光线控制：精准描述自然光源（如黄金时刻、蓝调时刻）与人工光布光方案（如伦勃朗光、工作室三点布光），极大增强画面的真实感与氛围 [6]。

幻灯片 6：常见生成问题与破局方案

运动模糊与抖动：避免使用“快速移动”等笼统词汇，需明确运动速度和具体技术参数（如 24fps 电影级动态模糊） [6]。
人物一致性：在较长视频中，应在 Prompt 中强化人物特征锚点（如发型、着装细节），或直接使用 Image-to-Video 模式提供参考图 [6, 7]。
物理规律异常：避免过度描述复杂的物理现象，建议每次生成只聚焦单一物理动作（如水滴落下），并配合慢动作参数 [7]。
文字渲染失败：针对 AI 模型难以生成准确文字的问题，建议采用后期合成叠加文字，并在 Prompt 中避免要求输出精确文本 [7]。

幻灯片 7：主流平台的特异性技巧

Sora 专用技巧：该模型能良好响应自然语言的叙事，偏好具有故事性、动作细节丰富以及场景连贯的段落式描述 [7]。
Kling 专用技巧：对中文语境理解极佳，可直接使用中文撰写 Prompt，轻松构建带有“浅景深、暖色调”等电影级画面的复杂场景 [7]。
Runway 专用技巧：文本输入应保持简洁，将重点放在静态构图和光影上，随后利用 Motion Brush（运动笔刷）对局部动作进行精确的定向控制 [7, 8]。

幻灯片 8：标准化工作流与进阶脚本编排

四轮迭代优化：遵循“评估主体/动作 → 评估构图/运动 → 评估风格/氛围 → 微调参数”的流程逐步逼近完美效果 [8]。
参数与版本管理：利用结构化表格或 JSON 记录项目场景、Prompt 版本、平台参数与生成质量评分，建立个人参数库 [8]。
Negative Prompt（负面提示词）：使用通用反向词（如低画质、多余手指、画面闪烁）与场景特定反向词来规避常见的生成瑕疵 [8]。
多镜头脚本编排：将单一的 Prompt 升级为“视频脚本”级别，预先规划各个镜头的时长、画面、运动与音频提示，以实现完整的视听叙事 [2, 8]。

博客摘要 + 核心看点点击展开

AI视频生成的Prompt工程 — summary

SEO 博客摘要：

本文全面解析了AI视频生成中的Prompt工程核心技巧。与图像生成不同，优秀的视频Prompt不仅需要描述空间构图，更依赖于时间维度上的运动与镜头语言[1]。文章详细拆解了包含主体、动作、场景、镜头、风格与氛围的“六维核心结构”，并提供了丰富的摄影级别词汇库[1, 2]。此外，作者针对Sora、Kling和Runway等主流平台分享了特异性优化技巧，并给出了从基础模板到多镜头脚本编排的完整实战工作流[3-5]。无论你是想解决画面抖动问题，还是追求精准的电影级美学，本指南都能助你将导演语言完美转化为AI提示词[6, 7]。

核心看点：

掌握六维结构：系统运用主体、动作等六大维度，并结合专业的镜头语言[1, 2]。
活用标准模板：运用叙事与技术模板，精准控制画面构图与时间维度的变化[1, 3]。
攻克生成痛点：掌握Sora等专属技巧，有效解决人物一致性与物理失真问题[4, 6]。

60 秒短视频脚本点击展开

AI视频生成的Prompt工程 — video

这是一份为您定制的60秒短视频脚本。脚本包含了画面与音效提示，以满足60秒的视觉与节奏张力，同时解说词严格遵循了字数限制与核心要点：

视频主题： AI视频生成的Prompt实战技巧
视频节奏： 快节奏、干货向、充满科技感
总时长： 约 60 秒

阶段	画面内容 (视觉/字幕)	核心解说词 (配音)
【钩子开场】 (0-5秒)	画面：屏幕左右分屏对比。左边是像抽卡一样崩坏的AI视频，右边是高质量的电影级AI视频。字幕：你的AI视频 VS 大神的AI视频	视频提示词，绝不能只写画面！
【核心解说一】 (5-20秒)	画面：出现一个六边形雷达图，依次亮起“主体、动作、场景、镜头、风格、氛围”六个节点[1]。动作：强调时间轴滚动的特效。	视频更需时间维度变化[1]，提示词要包含主体、镜头等六大维度[1]。
【核心解说二】 (20-35秒)	画面：快速闪过几组对比镜头：远景转特写（展现景别）[1]，推拉镜头和无人机航拍视角（展现运动）[2]。字幕：镜头语言 = 情绪控制器	镜头景别是基础参数[1]，配合推拉等镜头运动，能精准传达情绪[2]。
【核心解说三】 (35-50秒)	画面：展示一个基础Prompt被逐步加上镜头、光线和风格参数[3, 4]，画面从初稿一步步迭代为高清大片的过程[5]。	使用结构化模板[3]，通过多轮参数迭代优化，便能逐步逼近理想效果[5]。
【一句话收束】 (50-60秒)	画面：满屏的高质量AI生成的电影分镜快速掠过，最终定格在博主的Logo或点赞关注提示上。音效：电影感转场重低音。	掌握这些，让你的创作从描述画面走向编排叙事[6]！