小语言模型（SLM）综述

原创灵阙教研团队

A 推荐进阶研究报告 | 约 6 分钟阅读更新于 2026-02-28

AI 导读

小语言模型（SLM）综述 Phi-3/Gemma/Qwen-mini：3B以下模型的蒸馏技术、端侧部署与性能边界引言 "小而美"正在成为大模型落地的重要路径。当70B模型在数据中心展示震撼能力时，3B以下的小语言模型（Small Language Models, SLM）正在手机、IoT设备和浏览器中安静地改变用户体验。Phi-3以3.8B参数达到7B级性能，Gemma...

小语言模型（SLM）综述

Phi-3/Gemma/Qwen-mini：3B以下模型的蒸馏技术、端侧部署与性能边界

引言

"小而美"正在成为大模型落地的重要路径。当70B模型在数据中心展示震撼能力时，3B以下的小语言模型（Small Language Models, SLM）正在手机、IoT设备和浏览器中安静地改变用户体验。Phi-3以3.8B参数达到7B级性能，Gemma 2B在端侧实现流畅对话——SLM的核心命题是：用最小的计算资源获得"够用"的智能。

SLM格局

主流小模型对比

模型	参数量	上下文	MMLU	HumanEval	许可证	特色
Phi-3.5-mini	3.8B	128K	69.0	62.8	MIT	高密度训练数据
Gemma 2-2B	2.6B	8K	51.3	42.7	Gemma	Google品质
Qwen2.5-1.5B	1.5B	128K	56.5	37.2	Apache 2.0	中文最强小模型
Qwen2.5-3B	3.1B	128K	64.4	53.3	Apache 2.0	均衡
Llama 3.2-3B	3.2B	128K	63.4	48.1	Llama License	Meta生态
Llama 3.2-1B	1.2B	128K	49.3	29.3	Llama License	极小
SmolLM2-1.7B	1.7B	8K	50.1	35.8	Apache 2.0	HF自研
Phi-3-small	7.4B	128K	75.3	68.4	MIT	SLM上限

性能vs参数规模曲线

MMLU分数 vs 模型参数量（归一化）

MMLU
90 |                                          * GPT-4o (est)
   |
80 |                              * Phi-3-small(7.4B)
   |                          * Qwen2.5-7B
70 |                    * Phi-3.5-mini(3.8B)
   |              * Qwen2.5-3B
60 |         * Qwen2.5-1.5B
   |    * Gemma2-2B
50 |  * Llama3.2-1B
   |
40 |
   +------+------+------+------+------+------+
   0     1B     2B     3B     5B     7B    10B

关键观察:
1. 1B→3B: 性能跃升最大（从"玩具"到"可用"）
2. 3B→7B: 稳步提升，边际递减
3. Phi系列在同参数量下表现突出（数据质量>数据量）

核心技术：如何让小模型变强

技术一：知识蒸馏

import torch
import torch.nn as nn
import torch.nn.functional as F

class DistillationTrainer:
    """Knowledge distillation from large teacher to small student."""

    def __init__(self, teacher, student, temperature: float = 3.0,
                 alpha: float = 0.5):
        self.teacher = teacher
        self.student = student
        self.temperature = temperature
        self.alpha = alpha  # Balance between distill and hard labels

        # Freeze teacher
        for param in self.teacher.parameters():
            param.requires_grad = False

    def compute_loss(self, input_ids, labels):
        # Teacher forward (no grad)
        with torch.no_grad():
            teacher_logits = self.teacher(input_ids).logits

        # Student forward
        student_logits = self.student(input_ids).logits

        # Soft target loss (KL divergence)
        T = self.temperature
        soft_teacher = F.log_softmax(teacher_logits / T, dim=-1)
        soft_student = F.log_softmax(student_logits / T, dim=-1)
        distill_loss = F.kl_div(
            soft_student, soft_teacher.exp(),
            reduction="batchmean"
        ) * (T * T)

        # Hard target loss (standard cross-entropy)
        hard_loss = F.cross_entropy(
            student_logits.view(-1, student_logits.size(-1)),
            labels.view(-1),
            ignore_index=-100,
        )

        # Combined loss
        total_loss = self.alpha * distill_loss + (1 - self.alpha) * hard_loss
        return total_loss, distill_loss, hard_loss

技术二：高质量数据策略

Phi系列的成功证明了一个关键洞察：数据质量比数据量更重要。

数据质量金字塔（Phi-3策略）

          ┌──────────┐
          │ 合成数据  │  LLM生成的高质量教学数据
          │ (最精华)  │  教科书级别的解释+代码
          ├──────────┤
          │ 精选网页  │  经过严格过滤的网页数据
          │ (高质量)  │  学术/技术/百科内容
          ├──────────┤
          │ 通用网页  │  一般性网页数据
          │ (中等质量)│  新闻/博客/论坛
          └──────────┘

Phi-3训练策略:
  总训练token: ~3.3T (远少于Llama3的15T)
  但数据质量极高:
  ├── 合成数据占比高（LLM生成教学数据）
  ├── 多轮过滤（质量评分 + 去重 + 安全检查）
  └── 课程学习（先简单后复杂）

启示: 3B模型 + 3T高质量token > 7B模型 + 15T普通token

技术三：架构优化

优化	描述	参数节省	质量影响
GQA	Grouped Query Attention	减少KV头数	极小
Shared Embeddings	输入输出共享embedding	~10-15%	小
层数vs宽度	更宽更浅（适合端侧）	取决于配置	需调优
RoPE扩展	支持长上下文	无	无
SwiGLU	替代ReLU提升表达力	增加少量	正面

端侧部署实战

量化与推理优化

# llama.cpp deployment for mobile/edge
import subprocess

def deploy_slm_edge(
    model_path: str,
    quantization: str = "Q4_K_M",
    target_device: str = "phone",
) -> dict:
    """Prepare SLM for edge deployment."""

    # Device profiles
    profiles = {
        "phone": {
            "ram_gb": 6,
            "recommended_quant": ["Q4_K_M", "Q4_0", "Q3_K_M"],
            "max_model_gb": 3.0,
            "npu_available": True,
        },
        "tablet": {
            "ram_gb": 8,
            "recommended_quant": ["Q5_K_M", "Q4_K_M"],
            "max_model_gb": 4.0,
            "npu_available": True,
        },
        "raspberry_pi": {
            "ram_gb": 8,
            "recommended_quant": ["Q4_0", "Q3_K_M", "Q2_K"],
            "max_model_gb": 3.0,
            "npu_available": False,
        },
        "browser": {
            "ram_gb": 4,
            "recommended_quant": ["Q4_0", "Q3_K_M"],
            "max_model_gb": 2.0,
            "npu_available": False,  # WebGPU
        },
    }

    profile = profiles[target_device]

    # Estimate quantized model size
    quant_bits = {
        "Q8_0": 8.5, "Q6_K": 6.6, "Q5_K_M": 5.7,
        "Q4_K_M": 4.8, "Q4_0": 4.5, "Q3_K_M": 3.9, "Q2_K": 2.7,
    }

    # Parse model size from path (simplified)
    model_params_b = 3.0  # Example: 3B model
    bits = quant_bits.get(quantization, 4.8)
    model_size_gb = model_params_b * bits / 8

    feasible = model_size_gb <= profile["max_model_gb"]

    return {
        "model_size_gb": round(model_size_gb, 2),
        "target_device": target_device,
        "quantization": quantization,
        "device_ram_gb": profile["ram_gb"],
        "feasible": feasible,
        "npu_acceleration": profile["npu_available"],
        "recommended_quants": profile["recommended_quant"],
    }

# Test all configurations
for device in ["phone", "tablet", "raspberry_pi", "browser"]:
    for quant in ["Q4_K_M", "Q3_K_M"]:
        r = deploy_slm_edge("model", quant, device)
        status = "OK" if r["feasible"] else "NO"
        print(f"{device:15s} {quant:8s}: [{status}] {r['model_size_gb']:.1f}GB "
              f"(limit: {r['device_ram_gb'] * 0.5:.1f}GB)")

运行时性能基准

设备	模型	量化	Tokens/s	首Token延迟	内存占用
iPhone 15 Pro	Phi-3.5-mini	Q4_K_M	18 tok/s	200ms	2.1GB
iPhone 15 Pro	Qwen2.5-1.5B	Q4_K_M	28 tok/s	120ms	1.0GB
Pixel 9 Pro	Gemma 2-2B	Q4_0	15 tok/s	250ms	1.5GB
MacBook Air M3	Phi-3.5-mini	Q4_K_M	45 tok/s	80ms	2.1GB
Raspberry Pi 5	Qwen2.5-1.5B	Q3_K_M	5 tok/s	800ms	0.8GB

应用场景

SLM最佳适用场景

场景	推荐模型	参数	理由
设备端助手	Phi-3.5-mini	3.8B	质量最高的端侧模型
中文设备端	Qwen2.5-1.5B/3B	1.5-3B	中文能力领先
文本分类	SmolLM2-1.7B	1.7B	简单任务够用
代码补全	Qwen2.5-Coder-1.5B	1.5B	代码专项优化
RAG检索增强	Qwen2.5-3B	3B	阅读理解好
浏览器AI	Gemma 2-2B	2.6B	WebGPU友好
智能IoT	Qwen2.5-0.5B	0.5B	极致小巧

SLM不适用场景

复杂多步推理（需要7B+）
创意写作（质量差距明显）
长文档总结（理解深度不足）
多语言翻译（小模型语言覆盖有限）

结论

小语言模型正在定义AI落地的"最后一公里"。通过高质量数据策略（Phi路线）、知识蒸馏和激进量化，3B以下的模型已经能在分类、摘要、简单问答等任务上提供实用的智能。关键洞察是：SLM的价值不在于替代大模型，而在于让AI能力延伸到大模型无法触及的场景——离线设备、实时响应、隐私敏感和带宽受限。对于工程团队，SLM选型的核心原则是"为任务选择最小够用的模型"，而非追求基准分数。

Maurice | [email protected]

深度加工（NotebookLM 生成）

基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客，用于多场景复用

PPT 大纲（5-8 张幻灯片）点击展开

小语言模型（SLM）综述 — ppt

这是一份为您基于提供的文章内容生成的 7 张幻灯片 PPT 大纲，完全按照您的要求采用 Markdown 格式输出，每张包含标题和 3-5 个核心要点：

小语言模型（SLM）崛起：AI 落地的“最后一公里”

“小而美”新路径：当 70B 大模型在数据中心展现能力时，3B 以下的小型模型正在手机、IoT 设备和浏览器中悄然改变用户体验 [1]。
核心命题：用最小的计算资源，获得“够用”的智能 [1]。
代表性模型：Phi-3.5-mini（3.8B）、Gemma 2-2B、Qwen2.5-1.5B 等 [1]。
核心价值：不在于替代大模型，而是让 AI 延伸到离线设备、实时响应、隐私敏感和带宽受限的场景 [2]。

主流 SLM 格局与性能边界

参数与性能的跃升：1B 到 3B 参数是模型性能跃升最大的阶段，实现了从“玩具”到“可用”的跨越 [1]。
边际递减效应：从 3B 到 7B 参数，模型性能虽然稳步提升，但呈现出边际递减的趋势 [1]。
优质代表：Qwen2.5-1.5B/3B 是当前中文最强小模型，Gemma 2-2B 具有 Google 品质，Llama 3.2 具有极佳的生态 [1]。
关键洞察：在同等参数量下，数据质量大于数据量（如 Phi 系列表现突出） [1]。

让小模型变强：知识蒸馏技术

师生架构：通过知识蒸馏（Knowledge Distillation）将大规模 Teacher 模型的能力传递给小规模 Student 模型 [1, 3]。
参数冻结：在蒸馏训练过程中，Teacher 模型的参数会被冻结（不参与梯度更新） [3]。
双重损失函数：结合了基于 KL 散度的 Soft target loss（软标签）和标准的交叉熵 Hard target loss（硬标签） [3]。
平衡机制：通过温度系数（Temperature）和权重参数（Alpha）来平衡不同损失函数对模型学习的引导 [3]。

让小模型变强：高质量数据与架构优化

数据质量金字塔：数据质量远比数量重要。最精华的是 LLM 生成的“合成数据”（教科书级），其次是精选网页，最后才是通用网页 [4]。
Phi-3 训练策略：总训练 Token 仅约 3.3T，但通过合成数据、多轮过滤和“先简单后复杂”的课程学习，实现了小参数大能量 [4]。
架构级参数节省：采用 GQA（分组查询注意力）减少 KV 头数，并共享输入输出的 Embedding [4]。
性能提升设计：采用更宽更浅的网络结构适合端侧计算，同时用 SwiGLU 替代 ReLU 提升模型表达能力 [4]。

端侧部署实战与性能基准

激进量化技术：通过量化（如 Q4_K_M, Q3_K_M）大幅降低内存占用，3B 模型量化后仅需约 2GB 内存即可运行 [5]。
多设备适配：可针对手机（需~6GB RAM）、平板、树莓派及浏览器（WebGPU）等不同硬件配置进行灵活部署 [5, 6]。
优异的推理速度：在 iPhone 15 Pro 上，Phi-3.5-mini 可达 18 tok/s，Qwen2.5-1.5B 甚至可达 28 tok/s [6]。
极低的首 Token 延迟：MacBook Air M3 上延迟仅为 80ms，满足设备端极速实时交互的需求 [6]。

SLM 的适用与不适用场景

最佳适用场景：设备端助手、简单文本分类、代码补全、RAG 检索增强及智能 IoT 等基础任务 [6]。
能力短板：不适合复杂多步推理（通常需要 7B+ 模型支持） [6]。
内容生成限制：在创意写作方面质量差距明显，且长文档总结时理解深度往往不足 [6]。
语言限制：小模型语言覆盖范围有限，不适合处理复杂的多语言翻译任务 [6]。

总结与工程选型建议

AI 落地新阶段：SLM 正在定义边缘计算和终端 AI 落地的“最后一公里” [2]。
数据决定上限：“3B模型 + 3T高质量token”的组合，能够胜过“7B模型 + 15T普通token” [4]。
选型核心原则：对于工程团队而言，选型的最高指导原则是“为任务选择最小够用的模型”，而非盲目追求跑分基准 [2]。

博客摘要 + 核心看点点击展开

小语言模型（SLM）综述 — summary

SEO 友好博客摘要

“小而美”的小语言模型（SLM）正成为AI落地的关键路径[1]。本文全面综述了3B参数以下的Phi-3、Gemma与Qwen等主流模型，深入拆解了知识蒸馏、高质量数据构建及架构优化等核心技术[1-3]。结合量化推理实战，文章揭示了SLM在手机与IoT等端侧部署中的真实性能，指明了其在离线运行、隐私保护及低延迟场景中的独特商业价值[4-6]。阅读本文，探索如何用极小的计算资源实现“够用”的智能落地[1]。

核心看点