Scaling Laws 与模型训练经济学

原创灵阙教研团队

A 推荐进阶研究报告 | 约 8 分钟阅读更新于 2026-02-27

AI 导读

Scaling Laws 与模型训练经济学截至 2026-02 | Maurice | 灵阙学院一、Scaling Laws 的本质 Scaling Laws 描述的是一个简洁而深刻的经验规律：大语言模型的性能（以 loss 衡量）与三个核心变量之间存在幂律关系 -- 参数量 (N)、训练数据量 (D) 和计算量...

Scaling Laws 与模型训练经济学

截至 2026-02 | Maurice | 灵阙学院

一、Scaling Laws 的本质

Scaling Laws 描述的是一个简洁而深刻的经验规律：大语言模型的性能（以 loss 衡量）与三个核心变量之间存在幂律关系 -- 参数量 (N)、训练数据量 (D) 和计算量 (C)。这意味着在对数尺度上，投入更多的计算/数据/参数会带来可预测的性能提升，直到命中物理、经济或数据供给的天花板。

理解 Scaling Laws 不仅是学术兴趣，更是一个关乎数亿美元投资决策的实际问题：训练下一代模型应该投多少钱？该把预算分配给更大的模型、更多的数据还是更长的训练时间？

二、从 Kaplan 到 Chinchilla：两代定律

2.1 第一代：Kaplan Scaling Laws (2020)

OpenAI 团队发现，在固定计算预算下，增大模型参数比增加训练数据更高效。核心结论：

L(N) ~ N^(-0.076)    # Loss 随参数量的幂律下降
L(D) ~ D^(-0.095)    # Loss 随数据量的幂律下降
L(C) ~ C^(-0.050)    # Loss 随计算量的幂律下降

实际推论：Kaplan 建议在计算预算翻倍时，应将大部分预算用于增大模型参数，而非增加训练数据。这直接影响了 GPT-3 (175B 参数, 300B tokens) 的设计决策。

2.2 第二代：Chinchilla Scaling Laws (2022)

DeepMind 团队对 Kaplan 的结论做了重要修正。通过训练 400+ 个不同配置的模型，发现参数量和数据量应该以大致相同的速率增长：

最优训练 Token 数 ~ 20 * 参数量
即：D_opt ~ 20N

模型	参数量	Kaplan 建议数据	Chinchilla 建议数据	实际训练数据
GPT-3	175B	~175B tokens	~3.5T tokens	300B (欠训练)
Chinchilla	70B	~70B tokens	~1.4T tokens	1.4T (最优)
Llama 2 70B	70B	~70B	~1.4T	2T (过训练)
Llama 3 70B	70B	~70B	~1.4T	15T (极度过训练)

2.3 第三代演进：超越 Chinchilla

2024-2026 年的实践表明，Chinchilla 的 20:1 比例在推理成本纳入考量后不再是最优：

策略	Token/参数比	训练成本	推理成本	总成本 (3年)
Kaplan 最优	~1:1	低	高 (模型过大)	高
Chinchilla 最优	~20:1	中	中	中
推理感知最优	~100-200:1	高	低 (模型更小)	低
实际趋势 (2025+)	~200:1+	高	最低	最低

核心洞察：当模型要服务大量推理请求时，多花训练成本训出更小但更强的模型，在总拥有成本上更划算。这解释了为什么 Llama 3 用 15T tokens 训练一个 70B 模型，远超 Chinchilla 比例。

三、计算量建模

3.1 FLOPs 估算公式

对于标准 Transformer 架构，训练 FLOPs 的近似计算为：

C = 6 * N * D

其中：
C = 总浮点运算次数 (FLOPs)
N = 模型参数量
D = 训练 Token 数
6 = 常数 (前向 2x + 反向 4x 每参数每 token)

3.2 主流模型计算量对比

模型	参数量	训练 Tokens	估算 FLOPs	GPU-hours (H100)	估算成本
GPT-3	175B	300B	3.15e23	~10K	$300K
Chinchilla	70B	1.4T	5.88e23	~20K	$600K
Llama 2 70B	70B	2T	8.4e23	~28K	$850K
Llama 3 70B	70B	15T	6.3e24	~210K	$6.5M
Llama 3.1 405B	405B	15T	3.6e25	~1.2M	$60M
GPT-4 (推测)	~1.8T MoE	~13T	~2e25	~800K	$80M
DeepSeek V3	671B MoE	14.8T	~2.8e24	~180K	$5.6M
Gemini Ultra (推测)	~1T+	~10T+	~1e25+	~500K+	$50M+

3.3 MoE 对计算效率的影响

混合专家模型 (Mixture of Experts) 改变了传统 Scaling Laws 的参数-计算关系：

指标	Dense 模型	MoE 模型	差异
总参数量	N	4-8x N	MoE 更大
每 Token 激活参数	N	N/4 - N/8	MoE 更小
训练 FLOPs/Token	6N	6 * N_active	MoE 更省
内存占用	N	4-8x N	MoE 更大
推理延迟	基线	与 Dense 同等级	相当

MoE 的核心优势：用更大的总参数量获取更多知识容量，但每次推理只激活一小部分参数，从而在不增加推理成本的前提下提升模型能力。DeepSeek V3 的 671B 总参数/37B 激活参数就是这一思路的极致体现。

四、训练集群经济学

4.1 集群配置方案对比

规模	GPU 数量	GPU 类型	互联	投资额	适用场景
微型	8-32	H100	NVLink+PCIe	$300K-$1.2M	7B 微调 / 小模型训练
小型	64-256	H100	NVLink+IB	$2.5M-$10M	7B-13B 从头训练
中型	512-2048	H100	NVSwitch+IB	$20M-$80M	70B 训练
大型	4096-16384	H100/GB200	NVL72+IB	$200M-$800M	400B+ 训练
超大型	16384+	GB200 NVL72	专用网络	$1B+	1T+ 前沿模型

4.2 集群运营成本结构

成本项	占比 (年化)	说明
GPU 折旧	35%-45%	按 4-5 年折旧
电力	20%-30%	含冷却，PUE 1.1-1.4
网络设备	8%-12%	InfiniBand / NVLink 交换机
存储	5%-8%	分布式存储 + 检查点
人力运维	8%-12%	SRE + MLOps
场地/其他	5%-10%	机柜/物理安全/保险

4.3 电力成本深度分析

集群规模	功耗 (MW)	年电费 ($0.08/kWh)	年电费 ($0.15/kWh)
256x H100	~0.2 MW	$140K	$263K
2048x H100	~1.6 MW	$1.1M	$2.1M
16384x H100	~12.8 MW	$9M	$16.8M
100K GB200	~200 MW	$140M	$263M

五、各模型家族训练成本比较

5.1 成本效率矩阵

模型	训练成本 (估算)	性能 (MMLU)	成本效率 (MMLU/百万$)	关键效率技巧
GPT-4	$80M-$100M	~86%	~0.9	早期MoE (推测)
Claude 3.5 Sonnet	~$50M (推测)	~88%	~1.8	训练效率优化
Llama 3.1 405B	$60M-$100M	~88%	~1.0	长训练 + 大数据
DeepSeek V3	$5.6M	~87%	~15.5	MoE + 混合精度 + 低成本GPU
Qwen 2.5 72B	~$10M (推测)	~86%	~8.6	大数据 + 效率优化
Mistral Large 2	~$20M (推测)	~84%	~4.2	MoE 架构
Gemini 1.5 Pro	~$50M (推测)	~86%	~1.7	TPU 效率

5.2 DeepSeek 成本优势分析

DeepSeek V3 以 $5.6M 训练成本达到接近 GPT-4 水平的性能，成本效率领先一个数量级。其核心手段包括：

优化维度	DeepSeek V3 做法	效果
架构	MoE (671B/37B 激活)	训练 FLOPs 降低 ~10x
精度	FP8 混合精度训练	计算效率提升 ~2x
通信	自研通信优化	集群利用率 >60%
硬件	H800 (受限版 H100)	单位成本更低
数据	14.8T 高质量 tokens	数据效率高

六、收益递减分析

6.1 Loss 递减规律

Scaling Laws 的幂律本质意味着收益递减是内在的：

计算量倍增	Loss 下降幅度	性能感知
1x -> 10x	~15%-20%	明显提升
10x -> 100x	~12%-15%	可感知提升
100x -> 1000x	~10%-12%	需要 benchmark 测量
1000x -> 10000x	~8%-10%	边际价值递减

6.2 "智能天花板"假说

部分研究者认为纯文本预训练正在接近信息论极限：

信号	证据	确信度
Benchmark 饱和	MMLU/HellaSwag 等已接近人类上限	高
训练数据枯竭	高质量互联网文本约 10-15T tokens	中高
涌现能力放缓	新涌现能力的出现频率在下降	中
成本指数增长	每代模型训练成本 ~5-10x	高

6.3 突破方向

方向	核心思路	代表工作	成熟度
合成数据	用模型生成训练数据	Phi-3, Orca 系列	高
测试时计算	推理阶段投入更多计算	o1/o3, DeepSeek R1	高
多模态数据	视觉/音频扩充训练信号	Gemini, GPT-4o	高
长上下文	扩大上下文窗口	Gemini 1.5 (1M+)	中高
新架构	替代 Transformer	Mamba, RWKV, xLSTM	中
强化学习	RL 驱动的推理能力	o1/o3, R1	中高

七、小团队的策略指南

7.1 预算与可行性矩阵

预算区间	可行的训练规模	推荐策略
<$10K	7B 模型 LoRA 微调	微调开源模型
$10K-$100K	7B 全参数微调 / 13B LoRA	高质量数据 + 开源基座
$100K-$1M	7B 从头训练 / 70B 微调	聚焦垂直领域
$1M-$10M	13B-70B 从头训练	MoE + 合成数据
$10M-$100M	70B-400B 从头训练	需要顶级 ML 团队

7.2 关键决策：训练 vs 微调 vs API

维度	从头训练	微调	API 调用
成本	$100K-$100M+	$1K-$100K	$0.1-$10/1K req
可定制性	完全	高	低 (仅 prompt)
数据需求	TB 级	GB 级	无
团队需求	5-50+ ML 工程师	1-3 ML 工程师	0 (产品/应用层)
时间	月-年	天-周	即时
适合	需要独特能力/数据壁垒	领域适配	快速验证/通用任务

八、趋势判断

8.1 2026-2027 预测

趋势	确信度	对训练经济学的影响
测试时计算投入成为主流	高	推理成本上升，但能力大幅提升
合成数据占训练数据 >50%	中高	数据获取成本下降
FP4/FP8 训练成为默认	高	计算效率再提升 2x
10T+ token 训练成为标配	高	长训练策略普及
模型蒸馏/合并工具链成熟	中高	小团队进入门槛降低
自适应计算 (early exit)	中	推理效率优化空间

8.2 对投资者的启示

前沿训练是巨头游戏（$100M+ 预算），但效率创新是最大杠杆（DeepSeek 证明 10x 成本差距可被架构创新抹平）。推理经济学将主导行业（总 TCO 中推理占比超 80%）。数据质量重于数据数量。通过蒸馏、长训练和合成数据，7B-70B 小模型正迎来黄金时代。

Maurice | [email protected]

深度加工（NotebookLM 生成）

基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客，用于多场景复用

PPT 大纲（5-8 张幻灯片）点击展开

Scaling Laws 与模型训练经济学 — ppt

幻灯片 1：Scaling Laws 的核心本质

Scaling Laws 揭示了一个简洁而深刻的经验规律：大语言模型的性能（Loss）与参数量、数据量和计算量之间存在幂律关系 [1]。
这意味着在对数尺度上，投入更多的资源会带来可预测的性能提升，直到触及物理、经济或数据的天花板 [1]。
理解这一定律不仅出于学术兴趣，更是决定数亿美元模型训练预算分配（参数、数据、计算量优先级）的核心依据 [1]。

幻灯片 2：Scaling Laws 的三代演进

第一代（Kaplan, 2020）： 认为在固定预算下，增大模型参数比增加训练数据更高效，这直接影响了 GPT-3 的设计 [1]。
第二代（Chinchilla, 2022）： 修正了前代结论，提出参数量与数据量应同比例增长，最优 Token 数约为参数量的 20 倍 [1]。
第三代（推理感知, 2024+）： 为降低长期的推理成本，业内开始远超 Chinchilla 比例地“过训练”模型（Token/参数比达 200:1+），如用 15T 数据训练 70B 的 Llama 3 [1]。

幻灯片 3：计算量建模与 MoE 架构变革

标准 Transformer 的训练计算量（FLOPs）近似于：$C = 6 \times \text{参数量} \times \text{训练 Token 数}$ [1]。
MoE（混合专家模型）重塑了传统的参数-计算关系，其核心优势在于：用更大的总参数量获取更多知识容量，但每次推理只激活一小部分参数 [1]。
这种架构在不增加推理成本的前提下大幅提升了模型能力，同时使得训练阶段的 FLOPs 显著降低 [1, 2]。

幻灯片 4：训练集群的经济学与成本拆解

训练前沿大模型（400B+乃至 1T+ 参数）通常需要上万张 GPU（如 H100/GB200）组成的超大型集群，硬件投资额可达数亿至十亿美元 [1, 2]。
在集群的年化运营成本中，**GPU 折旧（35%-45%）与电力/冷却消耗（20%-30%）**占据了最大比例 [2]。
算力能耗极为惊人，以 16384 张 H100 组成的集群为例，年电费成本高达 900 万至 1680 万美元 [2]。

幻灯片 5：主流模型成本效率与 DeepSeek 案例

行业前沿模型（如 GPT-4、Llama 3.1 405B）的训练成本极高，通常在 6000 万至 1 亿美元左右 [2]。
DeepSeek V3 仅以 560 万美元的估算训练成本，达到了接近 GPT-4 水平的性能，其成本效率（MMLU/百万$）领先业内一个数量级 [2]。
其低成本的核心手段包括：极致的 MoE 架构（671B总参数/37B激活）、FP8 混合精度训练提升计算效率，以及高水平的自研通信优化 [2]。

幻灯片 6：收益递减与“智能天花板”假说

计算量倍增带来的 Loss 下降幅度会逐渐变小，当投入扩大万倍后，模型性能的边际价值面临显著递减 [2]。
行业面临纯文本预训练逼近信息论极限的挑战，表现为 Benchmark 测试接近饱和以及高质量互联网文本数据即将枯竭 [2]。
未来的破局方向包括：利用模型生成合成数据、在推理阶段投入更多的测试时计算（如 o1/o3），以及多模态数据扩充 [2]。

幻灯片 7：中小团队的 AI 战略指南

中小团队应基于预算采取不同策略：1 万美元内首选开源模型 LoRA 微调；10-100 万美元可尝试聚焦垂直领域的 7B 全参数训练或 70B 微调 [2]。
在“从头训练、微调、API调用”之间决策时，需综合评估成本、数据量要求、团队技术配置以及可定制性需求 [2, 3]。
对于通用任务或快速验证场景，直接调用 API 成本最低、速度最快；而构建独特能力或数据壁垒时才推荐进行微调或预训练 [2, 3]。

幻灯片 8：未来趋势预测与行业启示 (2026-2027)

技术趋势： 测试时计算投入、FP4/FP8 低精度训练将成为主流标配，且合成数据在训练数据中的占比预计将超过 50% [3]。
推理主导： 推理经济学将主导行业发展，因推理成本在总拥有成本（TCO）中占比将超过 80% [3]。
投资者启示： 虽然前沿模型训练是巨头游戏，但通过架构效率创新可撬动巨大杠杆；同时，借力蒸馏与合成数据，7B-70B 级别的高效小模型正迎来黄金时代 [3]。

博客摘要 + 核心看点点击展开

Scaling Laws 与模型训练经济学 — summary

本文深度解析大模型 Scaling Laws 与训练经济学，揭示参数、数据与算力的底层逻辑 [1]。文章梳理了注重后期推理成本的第三代定律演进，并详细拆解了 GPU 集群的运营开销 [1, 2]。通过对比主流大模型，重点剖析了 DeepSeek V3 等模型如何通过架构优化实现极高的成本效率 [2]。面对智能收益递减，文章指明了合成数据与测试时计算等突破方向，并为不同规模团队提供了务实的研发与投资策略，是不可错过的 AI 行业指南 [2, 3]。

核心看点：