AI 视频生成技术全景
AI 导读
AI 视频生成技术全景 灵阙学院 | AI 视频智能体系列 引言:60 秒改变一切的那一天 2024 年 2 月,OpenAI 发布 Sora 演示视频。一位女性在东京街头漫步,雨水倒映在霓虹灯下,摄影机平稳推进,路人的衣角随风微动。整整 60 秒,没有一处明显的"AI 感"。 这一刻,视频生成模型从"能用但粗糙"跃迁到"让专业人士停下来认真审视"。此后不到两年,整个赛道急剧加速:Google...
AI 视频生成技术全景
灵阙学院 | AI 视频智能体系列
引言:60 秒改变一切的那一天
2024 年 2 月,OpenAI 发布 Sora 演示视频。一位女性在东京街头漫步,雨水倒映在霓虹灯下,摄影机平稳推进,路人的衣角随风微动。整整 60 秒,没有一处明显的"AI 感"。
这一刻,视频生成模型从"能用但粗糙"跃迁到"让专业人士停下来认真审视"。此后不到两年,整个赛道急剧加速:Google 推出 Veo 3,中国公司快手推出可灵 2.0(Kling),Runway 到了 Gen-4,字节的即梦、Minimax 的海螺、Luma 的 Ray2 紧随其后。到 2026 年初,AI 视频生成已经嵌入内容创作者的日常工作流。
本文从技术架构到产品对比、从质量评估到生产管道,系统梳理 2025-2026 年 AI 视频生成的全景图。
一、核心技术架构演进
1.1 四代范式
视频生成技术演进
2016-2020: GAN 时代
VideoGAN -> MoCoGAN -> DVD-GAN
问题:训练不稳定、模式崩溃、分辨率受限
2020-2022: 自回归 + Transformer
VideoGPT -> NUWA -> CogVideo
问题:推理慢、时序一致性差
2022-2023: U-Net 扩散模型
Stable Video Diffusion -> ModelScope -> ZeroScope
问题:时长受限、运动不自然
2024-2026: 扩散 Transformer (DiT) <-- 当前主流
Sora -> Veo 2/3 -> Kling 2.0 -> Gen-4
突破:长视频、物理一致性、指令理解、音频同步
1.2 DiT 架构详解
Sora 之后,DiT(Diffusion Transformer)成为事实标准。核心改进是用全注意力 Transformer 替换 U-Net,让模型能建模任意距离的时空关系。
Diffusion Transformer (DiT) 视频生成流程
输入: 文本提示 + 可选参考图像/视频
|
v
+------------------------------------------------------+
| 文本编码器 (Text Encoder) |
| T5-XXL / CLIP / 双编码器混合 |
| 输出:语义向量 (768-4096 dim) |
+------------------------------------------------------+
|
v
+------------------------------------------------------+
| 时空 Patch 化 (Spatiotemporal Patchify) |
| 视频帧序列 (T, H, W, C) |
| -> 时空 Token: (T/pt, H/ps, W/ps, D) |
| 位置编码:3D RoPE |
+------------------------------------------------------+
|
v
+------------------------------------------------------+
| 全注意力 Transformer 主干 (N layers) |
| |
| 每层包含: |
| - Self-Attention (时空 Token 间) |
| - Cross-Attention (文本条件注入) |
| - AdaLayerNorm (噪声步 t + 条件自适应归一化) |
| - Feed-Forward Network |
+------------------------------------------------------+
|
v
+------------------------------------------------------+
| 视频 VAE 解码器 (Video VAE Decoder) |
| 潜空间 Token -> 像素空间视频帧 |
| 压缩比:时间 4x,空间 8x (典型值) |
+------------------------------------------------------+
|
v
输出: 视频帧 (T, H, W, 3)
1.3 DiT vs U-Net:为什么 Transformer 胜出
| 维度 | U-Net 扩散 | DiT 扩散 |
|---|---|---|
| 感受野 | 局部(卷积核限制) | 全局(自注意力) |
| 时空建模 | 分离或伪 3D | 原生时空联合 |
| 长视频一致性 | 差(局部卷积) | 好(全局注意力) |
| 可扩展性 | 有限(架构固定) | 强(Scaling Law 友好) |
| 物理真实性 | 中等 | 强(全局因果建模) |
| 计算成本 | 较低 | 高(O(n^2) 注意力) |
| 代表产品 | SVD, ModelScope | Sora, Veo, Kling 2.0 |
核心差异:U-Net 的卷积核只能"看到"局部区域,导致视频前 3 秒和后 3 秒之间的物体一致性经常断裂。DiT 的全局注意力让模型能同时关注任意时空位置,从而更好地建模"这棵树从头到尾要长一个样"。
二、主流平台全面对比(2026 年初)
2.1 技术指标
| 平台 | 最高分辨率 | 最大时长 | 帧率 | I2V | 音频 | API |
|---|---|---|---|---|---|---|
| Sora 2 (OpenAI) | 4K | 60s | 30fps | 是 | 对话同步 | 是 |
| Veo 3 (Google) | 4K | 120s+ | 24fps | 是 | 原生音频 | Vertex AI |
| Kling 2.0 (快手) | 2K | 180s | 30fps | 是 | 配音 | 商业 API |
| Gen-4 (Runway) | 1080p | 15s | 24fps | 是 | 无 | API |
| 海螺 (Minimax) | 1080p | 60s | 25fps | 是 | TTS 集成 | API |
| 即梦 (字节) | 1080p | 60s | 24fps | 是 | 配音 | 企业版 |
| Pika 2.2 | 1080p | 15s | 24fps | 是 | 无 | 有限 |
| Luma Ray 2 | 1080p | 9s | 24fps | 是 | 无 | API |
2.2 能力维度深度对比
| 维度 | Sora 2 | Veo 3 | Kling 2.0 | Gen-4 |
|---|---|---|---|---|
| 物理真实性 | 优 | 优 | 良+ | 良 |
| 人物一致性 | 良+ | 良+ | 良 | 中 |
| 文字渲染 | 良 | 良 | 中 | 差 |
| 中文指令理解 | 中 | 中 | 优 | 差 |
| 运镜控制 | 良 | 良 | 优 | 良 |
| 音频同步 | 良 | 优 | 中 | 无 |
| 长视频一致性 | 优 | 优 | 良 | 差 |
| 生成速度 | 慢(分钟级) | 中 | 中 | 快(秒级) |
| 每分钟成本 | ~$3-8 | ~$2-5 | ~$1-3 | ~$0.5-2 |
2.3 场景选择矩阵
| 场景 | 推荐方案 | 理由 |
|---|---|---|
| 影视级视觉特效 | Sora 2 + Veo 3 | 物理真实性最优 |
| 中文内容创作 | Kling 2.0 + 即梦 | 中文理解 + 本土生态 |
| 高频批量生产 | Gen-4 + Kling API | 速度和成本平衡 |
| 电商产品视频 | Kling + Pika | 产品展示稳定 |
| 需要原生音频 | Veo 3 | 唯一原生音频生成 |
| 教育/培训 | 海螺 + 即梦 | 合规性和本地化 |
三、三大生成模式
3.1 文本生成视频 (T2V)
"""
Kling API 文生视频示例
"""
import httpx
import time
KLING_API = "https://api.klingai.com/v1"
def text_to_video(
prompt: str,
negative_prompt: str = "",
duration: int = 5,
aspect: str = "16:9",
mode: str = "std",
api_key: str = "",
) -> str:
"""提交 T2V 任务,返回 task_id"""
resp = httpx.post(
f"{KLING_API}/videos/text2video",
json={
"model": "kling-v2",
"prompt": prompt,
"negative_prompt": negative_prompt,
"cfg_scale": 0.5,
"duration": duration,
"aspect_ratio": aspect,
"mode": mode,
},
headers={"Authorization": f"Bearer {api_key}"},
timeout=30,
)
resp.raise_for_status()
return resp.json()["data"]["task_id"]
def poll_result(task_id: str, api_key: str, timeout: int = 300) -> dict:
"""轮询直到完成。典型:std 2-5min,pro 5-10min"""
start = time.time()
while time.time() - start < timeout:
resp = httpx.get(
f"{KLING_API}/videos/text2video/{task_id}",
headers={"Authorization": f"Bearer {api_key}"},
)
data = resp.json()["data"]
status = data.get("task_status")
if status == "succeed":
return {
"video_url": data["task_result"]["videos"][0]["url"],
"duration": data["task_result"]["videos"][0]["duration"],
}
elif status == "failed":
raise RuntimeError(f"Failed: {data.get('task_status_msg')}")
time.sleep(min(10 + (time.time() - start) // 30, 30))
raise TimeoutError(f"Timed out after {timeout}s")
3.2 图生视频 (I2V)
图生视频是内容创作者最常用的工作流:先用 Midjourney/FLUX 生成精确构图,再用视频模型注入运动。
最佳实践:
- 参考图分辨率 >= 720p
- motion_prompt 描述运镜(推拉摇移)比描述物体运动效果更稳
- 避免参考图中有文字(视频中容易变形)
3.3 运镜提示词模板
结构化提示词 = [主体] + [场景] + [运镜] + [光线] + [技术参数]
示例:
"A lone astronaut" # 主体
"walks across red Martian landscape" # 场景
"slow dolly forward, wide shot" # 运镜
"golden sunset light, dust particles" # 光线
"4K, 24fps, cinematic, anamorphic" # 参数
常用运镜词汇表:
| 运镜 | 英文 | 效果 |
|---|---|---|
| 推进 | dolly forward | 摄影机向前移动 |
| 拉远 | zoom out / dolly back | 揭示全景 |
| 横摇 | pan left/right | 水平扫视 |
| 环绕 | orbit / 360 rotation | 绕主体旋转 |
| 升降 | crane up/down | 垂直升降 |
| 跟随 | tracking shot | 跟随主体移动 |
| 静止 | static / locked camera | 主体动,机位不动 |
| 手持 | handheld | 轻微晃动,纪实感 |
四、质量评估指标体系
4.1 自动化指标
| 指标 | 衡量维度 | 说明 | 参考值 |
|---|---|---|---|
| FVD | 整体质量 + 时序真实 | 越低越好 | < 100 良好, < 50 优秀 |
| CLIPSIM | 文本-视频对齐度 | 余弦相似度 | > 0.25 合格 |
| SSIM | 帧间结构一致 | 0-1 | > 0.85 良好 |
| temporal_consistency | 帧间连贯性 | 相邻帧 CLIP 相似度均值 | > 0.95 良好 |
| motion_magnitude | 运动丰富度 | 光流均值 | 场景相关 |
4.2 FVD 计算示例
"""
FVD (Frechet Video Distance) -- 视频生成质量的核心指标。
用 I3D 网络提取特征,计算真实/生成视频的分布距离。
"""
import numpy as np
from scipy.linalg import sqrtm
def compute_fvd(real_feats: np.ndarray, fake_feats: np.ndarray) -> float:
"""
real_feats, fake_feats: (N, 400) 视频级特征向量
由 I3D (Kinetics-400 预训练) 提取
"""
mu_r, mu_f = np.mean(real_feats, 0), np.mean(fake_feats, 0)
sig_r = np.cov(real_feats, rowvar=False)
sig_f = np.cov(fake_feats, rowvar=False)
diff = mu_r - mu_f
covmean, _ = sqrtm(sig_r @ sig_f, disp=False)
if np.iscomplexobj(covmean):
covmean = covmean.real
return float(diff @ diff + np.trace(sig_r + sig_f - 2 * covmean))
def temporal_consistency(frames: list, clip_model, clip_processor) -> float:
"""
帧间 CLIP embedding 余弦相似度均值。
> 0.95 良好,0.85-0.95 中等,< 0.85 差。
"""
import torch
embs = []
for frame in frames:
inp = clip_processor(images=frame, return_tensors="pt")
with torch.no_grad():
e = clip_model.get_image_features(**inp)
e = e / e.norm(dim=-1, keepdim=True)
embs.append(e[0].numpy())
sims = [np.dot(embs[i], embs[i+1]) for i in range(len(embs)-1)]
return float(np.mean(sims))
4.3 人工评估维度
| 维度 | 评分标准 | 权重 |
|---|---|---|
| 视觉质量 | 1-5:清晰度、无伪影、色彩 | 25% |
| 运动自然度 | 1-5:符合物理规律 | 25% |
| 文本对齐 | 1-5:内容与提示词匹配度 | 25% |
| 时序一致性 | 1-5:场景/对象帧间稳定 | 15% |
| 整体观感 | 1-5:创作者是否愿意使用 | 10% |
五、生产工作流集成
5.1 内容创作者最优流程
完整 AI 视频生产流程
Step 1: 脚本 + 分镜
Claude/GPT -> 脚本 -> 手动分镜 -> 每镜头写 AI 提示词
Step 2: 素材生成
图像:Midjourney / FLUX / Ideogram
视频:Kling Pro / Veo 3 (关键镜头)
Gen-4 (快速批量)
配音:ElevenLabs TTS / Minimax
音效:Udio / Suno / 音效库
Step 3: 后期合成
剪辑:DaVinci Resolve / Premiere
AI 升分:Topaz Video AI
AI 升帧:RIFE (24fps -> 60fps)
字幕:Whisper 转写 + 翻译
Step 4: 质量把关
时序一致性检查
版权审核(AI 生成内容标注)
平台审核预检
5.2 批量生产管道
import asyncio
from dataclasses import dataclass
@dataclass
class VideoJob:
job_id: str
prompt: str
ref_image: str = None
priority: int = 1
platform: str = "youtube" # 决定宽高比
class ProductionPipeline:
"""批量视频生产:多提供商并行 + 自动降级 + 重试"""
ROUTING = {
"high_quality": ["kling_pro", "veo3"],
"fast_batch": ["gen4", "kling_std"],
"budget": ["pika", "luma"],
}
def __init__(self, providers: dict):
self.providers = providers
async def batch(self, jobs: list[VideoJob], tier: str = "fast_batch"):
sem = asyncio.Semaphore(5)
async def one(job):
async with sem:
return await self._with_fallback(job, tier)
return await asyncio.gather(*[one(j) for j in jobs])
async def _with_fallback(self, job, tier):
for name in self.ROUTING[tier]:
try:
provider = self.providers[name.split("_")[0]]
mode = name.split("_")[1] if "_" in name else "std"
result = await provider.generate(
prompt=job.prompt, ref_image=job.ref_image, mode=mode,
)
return {"job_id": job.job_id, "status": "ok", **result}
except Exception:
continue
return {"job_id": job.job_id, "status": "failed"}
六、成本分析与优化
6.1 各平台成本对比
| 平台 | 标准 5s 成本 | 1080p 10s 成本 | 月订阅起步 |
|---|---|---|---|
| Kling std | ~$0.3 | ~$0.7 | $9.9 |
| Kling pro | ~$0.6 | ~$1.4 | $9.9 |
| Gen-4 | ~$0.5 | ~$1.0 | $15 |
| Pika | ~$0.2 | ~$0.5 | $8 |
| Veo 3 (Vertex) | ~$0.05/s | ~$0.5 | 按量 |
| Sora 2 | 未公开 | 未公开 | ChatGPT Pro $200 |
6.2 成本优化策略
- 分级生产:草稿用 std,终稿用 pro
- 批量合同:签定量可获 20-40% 折扣
- 提示词优化:精准提示词减少重试(最大浪费来源)
- 结果缓存:相似提示词的结果存档复用
- 混合策略:关键镜头用优质提供商,补充镜头用经济方案
七、当前局限性与前沿方向
7.1 2026 年初仍存在的问题
| 局限性 | 具体表现 | 影响 |
|---|---|---|
| 人物一致性 | 长视频中面部漂移 | 叙事类内容受限 |
| 文字渲染 | 视频中文字变形消失 | 产品视频受限 |
| 精细物理 | 液体/布料/手指 | 技术类内容 |
| 精确控制 | 运镜轨迹难以精确指定 | 专业影视 |
| 版权伦理 | 肖像权/知识产权模糊 | 商业使用风险 |
| 生成速度 | 高质量仍需分钟级 | 实时应用受限 |
7.2 2026 年的前沿突破方向
1. 世界模型 (World Model)
Sora 团队一直将其定位为"物理世界的模拟器"。下一代模型将更精确地建模重力、碰撞、光照折射,最终演变为可交互的世界模拟。
2. 原生音频 + 视频联合生成
Veo 3 已率先实现音频-视频联合生成(对话、环境音、音效同步)。这标志着从"静默视频 + 后期配音"到"声画一体"的范式转变。
3. 实时生成
通过模型蒸馏、缓存机制和专用推理芯片,将 60 秒视频生成压缩到秒级,支持游戏和虚拟世界的实时渲染。
4. 角色一致性 (Character Consistency)
用 3-5 张参考照片即可在所有场景中保持一致的角色外观。LoRA/IP-Adapter 在视频域的应用正在快速成熟。
5. 多模态精确控制
结合骨骼动作捕捉、深度图、音频口型同步,实现导演级别的精确控制——"我要摄影机从这里走到那里,人物做这个动作"。
八、常见错误与避坑指南
| 错误 | 后果 | 正确做法 |
|---|---|---|
| 一次生成求完美 | 反复重试浪费成本 | 生成 10 版选 4 版拼接 |
| 提示词太笼统 | 结果不可控 | 结构化模板:主体+场景+运镜+光线+参数 |
| 忽略 negative prompt | 出现不想要的元素 | 明确排除:blur, text, watermark |
| 参考图有文字 | 视频中文字变形 | 参考图去除文字元素 |
| 只评估画质 | 忽略时序一致性 | FVD + temporal_consistency 综合评估 |
| 单一提供商 | 风格单一 + 服务中断风险 | 多提供商混用 + 降级方案 |
| 不标注 AI 生成 | 法律和平台风险 | 元数据标注 + 平台声明 |
| 忽略版权 | 商用风险 | 确认模型许可条款 |
九、总结
AI 视频生成在 2024-2026 年经历了从"实验品"到"生产工具"的转变。DiT 架构的成熟、多模态控制的进步、音频联合生成的出现,让 AI 视频正在成为内容产业不可忽视的生产力。
但目前它仍然是辅助工具而非替代方案。最高效的工作方式不是指望 AI 一次生成完美结果,而是建立"生成-筛选-组合-后期"的迭代工作流,让 AI 和人各自发挥所长。
三条核心建议:
- 多提供商策略:不同场景用不同工具,没有"全能冠军"
- 提示词工程:结构化提示词是质量的第一杠杆
- 人机协作:AI 做素材生成,人做创意判断和精细控制
Maurice | [email protected]
深度加工(NotebookLM 生成)
基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客,用于多场景复用
PPT 大纲(5-8 张幻灯片) 点击展开
AI 视频生成技术全景 — ppt
这是一份基于您提供的文章内容提取的 7 张幻灯片 PPT 大纲,采用 Markdown 格式输出:
AI 视频生成技术全景 (2024-2026)
- 2024年2月 OpenAI 发布 Sora,标志着视频生成模型实现了从“粗糙”到“专业级”的质的跃迁 [1]。
- 行业赛道急剧加速,不到两年间,Google Veo 3、快手可灵 2.0 (Kling)、Runway Gen-4 等竞品迅速崛起 [1]。
- 截至2026年初,AI 视频生成技术已深度嵌入内容创作者的日常工作流,成为不可忽视的生产力 [1, 2]。
核心技术架构演进:DiT 成为主流
- 视频生成技术历经四代演进:GAN 时代、自回归+Transformer、U-Net 扩散模型,目前已全面进入扩散 Transformer (DiT) 时代 [1]。
- DiT 架构采用全注意力 Transformer 替换了传统的 U-Net,实现了对任意距离时空关系的原生联合建模 [1, 3]。
- 相比于 U-Net 受限于局部卷积核,DiT 的全局注意力机制大幅提升了长视频的一致性、物理真实性及对 Scaling Law 的适应能力 [3, 4]。
主流平台对比与应用场景选择
- 影视级视觉特效:推荐 Sora 2 与 Veo 3,二者在物理真实性和长视频一致性上表现最优 [4-6]。
- 中文内容创作:推荐可灵 2.0 与即梦,它们具备卓越的中文理解能力与本土生态优势 [4, 6]。
- 高频批量生产:推荐 Gen-4 与可灵 API,能够很好地平衡生成速度(秒级)与每分钟成本 [4-6]。
- 特殊需求场景:Veo 3 是目前唯一支持原生音频联合生成的平台;海螺与即梦更适合教育与培训场景 [2, 4, 6]。
视频生成模式与提示词最佳实践
- 主流生成模式包括文本生视频 (T2V) 和图生视频 (I2V),其中先用 AI 生成图像再注入运动的 I2V 是创作者最常用的工作流 [6, 7]。
- 结构化提示词公式:[主体] + [场景] + [运镜] + [光线] + [技术参数],有助于提升结果的可控性 [2, 7]。
- 运镜控制技巧:使用明确的英文运镜词汇(如 dolly forward 推进、orbit 环绕),比直接描述物体运动效果更稳定 [7]。
- 图像参考避坑:避免在参考图中使用文字(视频容易变形),且参考图分辨率应不低于 720p [2, 7]。
生产工作流集成与质量评估体系
- 完整生产工作流包含四步:脚本与分镜规划、多工具素材生成、后期合成(剪辑/升分/配音)以及质量审查把关 [8]。
- 自动化评估指标:重点关注 FVD(衡量整体质量与时序真实,越低越好)、CLIPSIM、SSIM 和帧间连贯性等 [9]。
- 人工评估维度:需综合考量视觉质量、运动自然度(是否符合物理规律)、文本对齐度、时序一致性和整体观感 [8]。
- 批量生产策略:通过不同优先级任务路由分发(高质量、快速批量、低预算),并建立自动降级与重试机制 [10]。
当前技术局限与前沿突破方向
- 2026 年初的局限性:长视频中人物面部仍存在漂移,精细物理(液体、手指)模拟不足,且高质量生成仍需分钟级等待 [2]。
- 发展世界模型:下一代模型将演变为“物理世界模拟器”,更精确地建模重力、碰撞与光照 [2]。
- 声画一体化:以 Veo 3 为代表,原生音频与视频联合生成(对话、音效同步)正成为新范式 [2]。
- 实时生成与多模态控制:结合专用芯片与骨骼动捕等技术,视频生成正向秒级实时渲染及导演级精确控制迈进 [2]。
总结与核心建议
- AI 视频生成当前仍是“辅助工具”而非完全替代方案,人机协作(AI 做素材生成,人做创意判断)是最高效的工作方式 [2]。
- 抛弃“一次生成求完美”的错误观念,应建立“生成-筛选-组合-后期”的迭代工作流 [2]。
- 采用多提供商混合策略:不同场景选用不同工具,没有绝对的“全能冠军” [2]。
- 重视提示词工程:结构化提示词是把控生成质量、减少重试浪费的第一杠杆 [2]。
博客摘要 + 核心看点 点击展开
AI 视频生成技术全景 — summary
SEO 友好博客摘要
本文全面系统地梳理了2024至2026年AI视频生成技术的演进全景与实战指南 [1]。随着技术从U-Net跨越至DiT(扩散Transformer)架构,AI视频已正式从“实验品”跃迁为内容创作者不可或缺的生产力工具 [1-3]。文章不仅深度横测了Sora 2、Veo 3、可灵 2.0及Gen-4等主流模型在物理真实性、时序一致性及成本上的表现 [4, 5],还详细拆解了文图生视频的最优工作流与结构化提示词编写技巧 [6, 7]。无论您是影视从业者还是自媒体达人,本指南都能助您掌握多提供商策略,并提前布局“声画一体”与世界模型等前沿红利 [3, 8]。
3 条核心看点
- 技术架构跃迁:DiT架构全面替代U-Net,极大提升长视频时序与物理一致性,重塑生产力 [1, 2]。
- 主流平台横测:深度对比Sora 2、Veo 3与可灵2.0等,提供多场景最佳工具组合与降本策略 [3-5]。
- 实战与前沿:解析结构化提示词与“生成-后期”协作模式,展望原生音视频与世界模型趋势 [3, 7, 8]。
60 秒短视频脚本 点击展开
AI 视频生成技术全景 — video
这是一份为您定制的 60 秒短视频脚本,已严格按照字数要求和文章核心内容进行提炼:
【钩子开场】(13字)
AI视频生成,60秒颠覆一切! [1]
【核心解说 1:技术跃迁】(28字)
架构步入DiT时代,全局注意力打破限制,长视频连贯不穿帮。 [1-3]
【核心解说 2:巨头争霸】(28字)
模型巨头竞相爆发,4K超清生成与原生声画一体已成为新标配。 [3, 4]
【核心解说 3:落地玩法】(28字)
AI现阶段仍为辅助,巧用多平台与提示词,人机协作才最高效。 [4]
【收束语】
建立专属迭代工作流,让AI尽情放大你的创意! [4]
(注:在实际 60 秒短视频录制中,这几句精简的口播可以配合丰富的相关画面(如 Sora 演示视频或生成的 4K 大片)以及稍慢的节奏娓娓道来,从而保证视觉和听觉的双重冲击力。)
课后巩固
与本文内容匹配的闪卡与测验,帮助巩固所学知识
延伸阅读
根据本文主题,为你推荐相关的学习资料