Scaling Laws 与模型训练经济学
AI 导读
Scaling Laws 与模型训练经济学 截至 2026-02 | Maurice | 灵阙学院 一、Scaling Laws 的本质 Scaling Laws 描述的是一个简洁而深刻的经验规律:大语言模型的性能(以 loss 衡量)与三个核心变量之间存在幂律关系 -- 参数量 (N)、训练数据量 (D) 和计算量...
Scaling Laws 与模型训练经济学
截至 2026-02 | Maurice | 灵阙学院
一、Scaling Laws 的本质
Scaling Laws 描述的是一个简洁而深刻的经验规律:大语言模型的性能(以 loss 衡量)与三个核心变量之间存在幂律关系 -- 参数量 (N)、训练数据量 (D) 和计算量 (C)。这意味着在对数尺度上,投入更多的计算/数据/参数会带来可预测的性能提升,直到命中物理、经济或数据供给的天花板。
理解 Scaling Laws 不仅是学术兴趣,更是一个关乎数亿美元投资决策的实际问题:训练下一代模型应该投多少钱?该把预算分配给更大的模型、更多的数据还是更长的训练时间?
二、从 Kaplan 到 Chinchilla:两代定律
2.1 第一代:Kaplan Scaling Laws (2020)
OpenAI 团队发现,在固定计算预算下,增大模型参数比增加训练数据更高效。核心结论:
L(N) ~ N^(-0.076) # Loss 随参数量的幂律下降
L(D) ~ D^(-0.095) # Loss 随数据量的幂律下降
L(C) ~ C^(-0.050) # Loss 随计算量的幂律下降
实际推论:Kaplan 建议在计算预算翻倍时,应将大部分预算用于增大模型参数,而非增加训练数据。这直接影响了 GPT-3 (175B 参数, 300B tokens) 的设计决策。
2.2 第二代:Chinchilla Scaling Laws (2022)
DeepMind 团队对 Kaplan 的结论做了重要修正。通过训练 400+ 个不同配置的模型,发现参数量和数据量应该以大致相同的速率增长:
最优训练 Token 数 ~ 20 * 参数量
即:D_opt ~ 20N
| 模型 | 参数量 | Kaplan 建议数据 | Chinchilla 建议数据 | 实际训练数据 |
|---|---|---|---|---|
| GPT-3 | 175B | ~175B tokens | ~3.5T tokens | 300B (欠训练) |
| Chinchilla | 70B | ~70B tokens | ~1.4T tokens | 1.4T (最优) |
| Llama 2 70B | 70B | ~70B | ~1.4T | 2T (过训练) |
| Llama 3 70B | 70B | ~70B | ~1.4T | 15T (极度过训练) |
2.3 第三代演进:超越 Chinchilla
2024-2026 年的实践表明,Chinchilla 的 20:1 比例在推理成本纳入考量后不再是最优:
| 策略 | Token/参数比 | 训练成本 | 推理成本 | 总成本 (3年) |
|---|---|---|---|---|
| Kaplan 最优 | ~1:1 | 低 | 高 (模型过大) | 高 |
| Chinchilla 最优 | ~20:1 | 中 | 中 | 中 |
| 推理感知最优 | ~100-200:1 | 高 | 低 (模型更小) | 低 |
| 实际趋势 (2025+) | ~200:1+ | 高 | 最低 | 最低 |
核心洞察:当模型要服务大量推理请求时,多花训练成本训出更小但更强的模型,在总拥有成本上更划算。这解释了为什么 Llama 3 用 15T tokens 训练一个 70B 模型,远超 Chinchilla 比例。
三、计算量建模
3.1 FLOPs 估算公式
对于标准 Transformer 架构,训练 FLOPs 的近似计算为:
C = 6 * N * D
其中:
C = 总浮点运算次数 (FLOPs)
N = 模型参数量
D = 训练 Token 数
6 = 常数 (前向 2x + 反向 4x 每参数每 token)
3.2 主流模型计算量对比
| 模型 | 参数量 | 训练 Tokens | 估算 FLOPs | GPU-hours (H100) | 估算成本 |
|---|---|---|---|---|---|
| GPT-3 | 175B | 300B | 3.15e23 | ~10K | $300K |
| Chinchilla | 70B | 1.4T | 5.88e23 | ~20K | $600K |
| Llama 2 70B | 70B | 2T | 8.4e23 | ~28K | $850K |
| Llama 3 70B | 70B | 15T | 6.3e24 | ~210K | $6.5M |
| Llama 3.1 405B | 405B | 15T | 3.6e25 | ~1.2M | $60M |
| GPT-4 (推测) | ~1.8T MoE | ~13T | ~2e25 | ~800K | $80M |
| DeepSeek V3 | 671B MoE | 14.8T | ~2.8e24 | ~180K | $5.6M |
| Gemini Ultra (推测) | ~1T+ | ~10T+ | ~1e25+ | ~500K+ | $50M+ |
3.3 MoE 对计算效率的影响
混合专家模型 (Mixture of Experts) 改变了传统 Scaling Laws 的参数-计算关系:
| 指标 | Dense 模型 | MoE 模型 | 差异 |
|---|---|---|---|
| 总参数量 | N | 4-8x N | MoE 更大 |
| 每 Token 激活参数 | N | N/4 - N/8 | MoE 更小 |
| 训练 FLOPs/Token | 6N | 6 * N_active | MoE 更省 |
| 内存占用 | N | 4-8x N | MoE 更大 |
| 推理延迟 | 基线 | 与 Dense 同等级 | 相当 |
MoE 的核心优势:用更大的总参数量获取更多知识容量,但每次推理只激活一小部分参数,从而在不增加推理成本的前提下提升模型能力。DeepSeek V3 的 671B 总参数/37B 激活参数就是这一思路的极致体现。
四、训练集群经济学
4.1 集群配置方案对比
| 规模 | GPU 数量 | GPU 类型 | 互联 | 投资额 | 适用场景 |
|---|---|---|---|---|---|
| 微型 | 8-32 | H100 | NVLink+PCIe | $300K-$1.2M | 7B 微调 / 小模型训练 |
| 小型 | 64-256 | H100 | NVLink+IB | $2.5M-$10M | 7B-13B 从头训练 |
| 中型 | 512-2048 | H100 | NVSwitch+IB | $20M-$80M | 70B 训练 |
| 大型 | 4096-16384 | H100/GB200 | NVL72+IB | $200M-$800M | 400B+ 训练 |
| 超大型 | 16384+ | GB200 NVL72 | 专用网络 | $1B+ | 1T+ 前沿模型 |
4.2 集群运营成本结构
| 成本项 | 占比 (年化) | 说明 |
|---|---|---|
| GPU 折旧 | 35%-45% | 按 4-5 年折旧 |
| 电力 | 20%-30% | 含冷却,PUE 1.1-1.4 |
| 网络设备 | 8%-12% | InfiniBand / NVLink 交换机 |
| 存储 | 5%-8% | 分布式存储 + 检查点 |
| 人力运维 | 8%-12% | SRE + MLOps |
| 场地/其他 | 5%-10% | 机柜/物理安全/保险 |
4.3 电力成本深度分析
| 集群规模 | 功耗 (MW) | 年电费 ($0.08/kWh) | 年电费 ($0.15/kWh) |
|---|---|---|---|
| 256x H100 | ~0.2 MW | $140K | $263K |
| 2048x H100 | ~1.6 MW | $1.1M | $2.1M |
| 16384x H100 | ~12.8 MW | $9M | $16.8M |
| 100K GB200 | ~200 MW | $140M | $263M |
五、各模型家族训练成本比较
5.1 成本效率矩阵
| 模型 | 训练成本 (估算) | 性能 (MMLU) | 成本效率 (MMLU/百万$) | 关键效率技巧 |
|---|---|---|---|---|
| GPT-4 | $80M-$100M | ~86% | ~0.9 | 早期MoE (推测) |
| Claude 3.5 Sonnet | ~$50M (推测) | ~88% | ~1.8 | 训练效率优化 |
| Llama 3.1 405B | $60M-$100M | ~88% | ~1.0 | 长训练 + 大数据 |
| DeepSeek V3 | $5.6M | ~87% | ~15.5 | MoE + 混合精度 + 低成本GPU |
| Qwen 2.5 72B | ~$10M (推测) | ~86% | ~8.6 | 大数据 + 效率优化 |
| Mistral Large 2 | ~$20M (推测) | ~84% | ~4.2 | MoE 架构 |
| Gemini 1.5 Pro | ~$50M (推测) | ~86% | ~1.7 | TPU 效率 |
5.2 DeepSeek 成本优势分析
DeepSeek V3 以 $5.6M 训练成本达到接近 GPT-4 水平的性能,成本效率领先一个数量级。其核心手段包括:
| 优化维度 | DeepSeek V3 做法 | 效果 |
|---|---|---|
| 架构 | MoE (671B/37B 激活) | 训练 FLOPs 降低 ~10x |
| 精度 | FP8 混合精度训练 | 计算效率提升 ~2x |
| 通信 | 自研通信优化 | 集群利用率 >60% |
| 硬件 | H800 (受限版 H100) | 单位成本更低 |
| 数据 | 14.8T 高质量 tokens | 数据效率高 |
六、收益递减分析
6.1 Loss 递减规律
Scaling Laws 的幂律本质意味着收益递减是内在的:
| 计算量倍增 | Loss 下降幅度 | 性能感知 |
|---|---|---|
| 1x -> 10x | ~15%-20% | 明显提升 |
| 10x -> 100x | ~12%-15% | 可感知提升 |
| 100x -> 1000x | ~10%-12% | 需要 benchmark 测量 |
| 1000x -> 10000x | ~8%-10% | 边际价值递减 |
6.2 "智能天花板"假说
部分研究者认为纯文本预训练正在接近信息论极限:
| 信号 | 证据 | 确信度 |
|---|---|---|
| Benchmark 饱和 | MMLU/HellaSwag 等已接近人类上限 | 高 |
| 训练数据枯竭 | 高质量互联网文本约 10-15T tokens | 中高 |
| 涌现能力放缓 | 新涌现能力的出现频率在下降 | 中 |
| 成本指数增长 | 每代模型训练成本 ~5-10x | 高 |
6.3 突破方向
| 方向 | 核心思路 | 代表工作 | 成熟度 |
|---|---|---|---|
| 合成数据 | 用模型生成训练数据 | Phi-3, Orca 系列 | 高 |
| 测试时计算 | 推理阶段投入更多计算 | o1/o3, DeepSeek R1 | 高 |
| 多模态数据 | 视觉/音频扩充训练信号 | Gemini, GPT-4o | 高 |
| 长上下文 | 扩大上下文窗口 | Gemini 1.5 (1M+) | 中高 |
| 新架构 | 替代 Transformer | Mamba, RWKV, xLSTM | 中 |
| 强化学习 | RL 驱动的推理能力 | o1/o3, R1 | 中高 |
七、小团队的策略指南
7.1 预算与可行性矩阵
| 预算区间 | 可行的训练规模 | 推荐策略 |
|---|---|---|
| <$10K | 7B 模型 LoRA 微调 | 微调开源模型 |
| $10K-$100K | 7B 全参数微调 / 13B LoRA | 高质量数据 + 开源基座 |
| $100K-$1M | 7B 从头训练 / 70B 微调 | 聚焦垂直领域 |
| $1M-$10M | 13B-70B 从头训练 | MoE + 合成数据 |
| $10M-$100M | 70B-400B 从头训练 | 需要顶级 ML 团队 |
7.2 关键决策:训练 vs 微调 vs API
| 维度 | 从头训练 | 微调 | API 调用 |
|---|---|---|---|
| 成本 | $100K-$100M+ | $1K-$100K | $0.1-$10/1K req |
| 可定制性 | 完全 | 高 | 低 (仅 prompt) |
| 数据需求 | TB 级 | GB 级 | 无 |
| 团队需求 | 5-50+ ML 工程师 | 1-3 ML 工程师 | 0 (产品/应用层) |
| 时间 | 月-年 | 天-周 | 即时 |
| 适合 | 需要独特能力/数据壁垒 | 领域适配 | 快速验证/通用任务 |
八、趋势判断
8.1 2026-2027 预测
| 趋势 | 确信度 | 对训练经济学的影响 |
|---|---|---|
| 测试时计算投入成为主流 | 高 | 推理成本上升,但能力大幅提升 |
| 合成数据占训练数据 >50% | 中高 | 数据获取成本下降 |
| FP4/FP8 训练成为默认 | 高 | 计算效率再提升 2x |
| 10T+ token 训练成为标配 | 高 | 长训练策略普及 |
| 模型蒸馏/合并工具链成熟 | 中高 | 小团队进入门槛降低 |
| 自适应计算 (early exit) | 中 | 推理效率优化空间 |
8.2 对投资者的启示
前沿训练是巨头游戏($100M+ 预算),但效率创新是最大杠杆(DeepSeek 证明 10x 成本差距可被架构创新抹平)。推理经济学将主导行业(总 TCO 中推理占比超 80%)。数据质量重于数据数量。通过蒸馏、长训练和合成数据,7B-70B 小模型正迎来黄金时代。
Maurice | [email protected]
深度加工(NotebookLM 生成)
基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客,用于多场景复用
PPT 大纲(5-8 张幻灯片) 点击展开
Scaling Laws 与模型训练经济学 — ppt
幻灯片 1:Scaling Laws 的核心本质
- Scaling Laws 揭示了一个简洁而深刻的经验规律:大语言模型的性能(Loss)与参数量、数据量和计算量之间存在幂律关系 [1]。
- 这意味着在对数尺度上,投入更多的资源会带来可预测的性能提升,直到触及物理、经济或数据的天花板 [1]。
- 理解这一定律不仅出于学术兴趣,更是决定数亿美元模型训练预算分配(参数、数据、计算量优先级)的核心依据 [1]。
幻灯片 2:Scaling Laws 的三代演进
- 第一代(Kaplan, 2020): 认为在固定预算下,增大模型参数比增加训练数据更高效,这直接影响了 GPT-3 的设计 [1]。
- 第二代(Chinchilla, 2022): 修正了前代结论,提出参数量与数据量应同比例增长,最优 Token 数约为参数量的 20 倍 [1]。
- 第三代(推理感知, 2024+): 为降低长期的推理成本,业内开始远超 Chinchilla 比例地“过训练”模型(Token/参数比达 200:1+),如用 15T 数据训练 70B 的 Llama 3 [1]。
幻灯片 3:计算量建模与 MoE 架构变革
- 标准 Transformer 的训练计算量(FLOPs)近似于:$C = 6 \times \text{参数量} \times \text{训练 Token 数}$ [1]。
- MoE(混合专家模型)重塑了传统的参数-计算关系,其核心优势在于:用更大的总参数量获取更多知识容量,但每次推理只激活一小部分参数 [1]。
- 这种架构在不增加推理成本的前提下大幅提升了模型能力,同时使得训练阶段的 FLOPs 显著降低 [1, 2]。
幻灯片 4:训练集群的经济学与成本拆解
- 训练前沿大模型(400B+乃至 1T+ 参数)通常需要上万张 GPU(如 H100/GB200)组成的超大型集群,硬件投资额可达数亿至十亿美元 [1, 2]。
- 在集群的年化运营成本中,**GPU 折旧(35%-45%)与电力/冷却消耗(20%-30%)**占据了最大比例 [2]。
- 算力能耗极为惊人,以 16384 张 H100 组成的集群为例,年电费成本高达 900 万至 1680 万美元 [2]。
幻灯片 5:主流模型成本效率与 DeepSeek 案例
- 行业前沿模型(如 GPT-4、Llama 3.1 405B)的训练成本极高,通常在 6000 万至 1 亿美元左右 [2]。
- DeepSeek V3 仅以 560 万美元的估算训练成本,达到了接近 GPT-4 水平的性能,其成本效率(MMLU/百万$)领先业内一个数量级 [2]。
- 其低成本的核心手段包括:极致的 MoE 架构(671B总参数/37B激活)、FP8 混合精度训练提升计算效率,以及高水平的自研通信优化 [2]。
幻灯片 6:收益递减与“智能天花板”假说
- 计算量倍增带来的 Loss 下降幅度会逐渐变小,当投入扩大万倍后,模型性能的边际价值面临显著递减 [2]。
- 行业面临纯文本预训练逼近信息论极限的挑战,表现为 Benchmark 测试接近饱和以及高质量互联网文本数据即将枯竭 [2]。
- 未来的破局方向包括:利用模型生成合成数据、在推理阶段投入更多的测试时计算(如 o1/o3),以及多模态数据扩充 [2]。
幻灯片 7:中小团队的 AI 战略指南
- 中小团队应基于预算采取不同策略:1 万美元内首选开源模型 LoRA 微调;10-100 万美元可尝试聚焦垂直领域的 7B 全参数训练或 70B 微调 [2]。
- 在“从头训练、微调、API调用”之间决策时,需综合评估成本、数据量要求、团队技术配置以及可定制性需求 [2, 3]。
- 对于通用任务或快速验证场景,直接调用 API 成本最低、速度最快;而构建独特能力或数据壁垒时才推荐进行微调或预训练 [2, 3]。
幻灯片 8:未来趋势预测与行业启示 (2026-2027)
- 技术趋势: 测试时计算投入、FP4/FP8 低精度训练将成为主流标配,且合成数据在训练数据中的占比预计将超过 50% [3]。
- 推理主导: 推理经济学将主导行业发展,因推理成本在总拥有成本(TCO)中占比将超过 80% [3]。
- 投资者启示: 虽然前沿模型训练是巨头游戏,但通过架构效率创新可撬动巨大杠杆;同时,借力蒸馏与合成数据,7B-70B 级别的高效小模型正迎来黄金时代 [3]。
博客摘要 + 核心看点 点击展开
Scaling Laws 与模型训练经济学 — summary
本文深度解析大模型 Scaling Laws 与训练经济学,揭示参数、数据与算力的底层逻辑 [1]。文章梳理了注重后期推理成本的第三代定律演进,并详细拆解了 GPU 集群的运营开销 [1, 2]。通过对比主流大模型,重点剖析了 DeepSeek V3 等模型如何通过架构优化实现极高的成本效率 [2]。面对智能收益递减,文章指明了合成数据与测试时计算等突破方向,并为不同规模团队提供了务实的研发与投资策略,是不可错过的 AI 行业指南 [2, 3]。
核心看点:
- Scaling Laws 演进:最新策略注重增加训练投入以降低长期推理成本,打造更小更强的模型 [1]。
- 极致成本效率:DeepSeek V3 凭借 MoE 架构、混合精度与数据优化,以极低成本实现顶尖性能 [2]。
- 突破智能天花板:纯文本预训练逼近极限,测试时计算投入与合成数据将成为打破能力瓶颈的核心 [2]。
60 秒短视频脚本 点击展开
Scaling Laws 与模型训练经济学 — video
这是一份为您量身定制的 60 秒短视频脚本,严格按照字数和结构要求编写:
【钩子开场】(13字)
揭秘大模型背后的烧钱定律!
【核心解说】
- **盲目求大成过去!**为降本,用海量数据死磕小模型已成业界新趋势。[1](30字)
- 巨头烧上亿,DeepSeek仅花五百万,凭架构创新打破成本壁垒。[2](30字)
- 文本数据见顶!算力转向推理端,小模型正凭借效率迎来黄金时代。[2, 3](30字)
【结尾收束】
效率创新才是最大杠杆,AI小模型平民化时代已经到来![3]
课后巩固
与本文内容匹配的闪卡与测验,帮助巩固所学知识
延伸阅读
根据本文主题,为你推荐相关的学习资料