模型工程

LLM 评测框架、LoRA 微调、RLHF/DPO 对齐与推理加速

22 篇文章 | 5 个专题

从这里开始 (Start Here)

Transformer 架构深度解析

Transformer 架构深度解析 Maurice | 灵阙学院 2026-02-27 一句话理解 Transformer Transformer 的本质是一个"注意力驱动的序列到序列映射器"：给定输入序列中的每个位置，它通过注意力机制动态地从所有其他位置收集信息，而不像 RNN 那样被迫按顺序逐步传递。这使得它天然支持并行计算，且能捕获任意距离的依赖关系。整体架构...

立即阅读

难度

排序

类型

平台架构

5 篇

S 提升深度解析 8 min

AI 推理优化：从模型压缩到推测解码

AI 推理优化：从模型压缩到推测解码量化技术（GPTQ/AWQ/GGUF）、推测解码、KV-Cache 优化与 vLLM/TGI 生产部署全解析引言大语言模型的推理成本是制约其大规模部署的核心瓶颈。一个 70B 参数的模型在 FP16 下需要约 140GB 显存，远超单卡容量。即使能装下，自回归解码的逐 token 生成方式导致 GPU 利用率极低——推理过程是 memory-bound...

S 提升对比评测 7 min

大模型微调实战：LoRA、QLoRA与全参数微调深度对比

大模型微调实战：LoRA、QLoRA与全参数微调深度对比概述大模型微调（Fine-tuning）是将通用预训练模型适配到特定领域任务的核心技术。随着模型参数量从数十亿到数千亿的爆发式增长，全参数微调的计算成本已经超出大多数团队的承受范围。参数高效微调（PEFT）技术应运而生，其中 LoRA 和 QLoRA 成为当前最主流的两种方案。...

S 进阶深度解析 7 min

边缘 AI 部署：从云端到端侧的模型优化

边缘 AI 部署：从云端到端侧的模型优化概述边缘 AI（Edge AI）将 AI 推理从云端移到设备端（手机、IoT 设备、浏览器、嵌入式系统），核心目标是降低延迟、保护隐私、减少带宽依赖。关键挑战：端侧设备算力和内存有限，必须对模型进行大幅压缩和优化。本文系统覆盖模型量化、知识蒸馏、结构优化和推理引擎四个维度。模型压缩技术全景模型压缩技术栈 | ├── 量化...

S 进阶教程 7 min

边缘 AI 部署：从云端到终端

边缘 AI 部署：从云端到终端 ONNX Runtime、TensorRT、Core ML、WebGPU 运行时对比，模型优化压缩技术与端侧推理实战引言云端 AI 推理面临三大制约：网络延迟（用户体验）、带宽成本（数据传输）和隐私合规（数据出境）。边缘 AI 将推理计算推到离用户最近的位置——手机、浏览器、IoT 设备甚至芯片内部——从根本上消除了这些制约。本文覆盖边缘 AI...

S 提升对比评测 13 min

LLM 推理引擎横评：vLLM vs SGLang vs TensorRT-LLM

LLM 推理引擎横评：vLLM vs SGLang vs TensorRT-LLM 作者：Maurice | 灵阙学院导读如果你正在为自家产品部署开源大模型，这篇文章能帮你少踩至少半年的坑。推理引擎这个赛道看似底层，但它直接决定你的 GPU 成本、API 延迟和用户体验——对 AI 产品经理和技术负责人而言，选错引擎等于把钱烧进黑洞。本文基于 2025-2026 年...

战略洞察

1 篇

A 进阶对比评测 7 min

LLM推理框架对比：vLLM vs TGI vs SGLang vs TensorRT-LLM

LLM推理框架对比：vLLM vs TGI vs SGLang vs TensorRT-LLM 四大推理框架的吞吐量、延迟优化、显存效率与工程化部署对比 | 2026-02 一、推理框架的核心价值大模型的推理成本占总运营成本的 80% 以上。推理框架的选择直接决定了每 token 的成本、首 token 延迟（TTFT）、生成吞吐量和并发承载能力。本文对比 vLLM、TGI（Text...

深度研究

5 篇

A 提升深度解析 9 min

Scaling Law的边界：大模型何时到顶

Scaling Law的边界：大模型何时到顶 Scaling Law是驱动大模型进步的核心引擎。从Kaplan到Chinchilla，从GPT-3到GPT-5，"越大越好"的范式塑造了整个行业。但这条曲线是否有尽头？本文深入分析Scaling Law的理论基础、实证证据、边界条件与"后Scaling"时代的技术路径。一、Scaling Law基础 1.1 什么是Scaling Law...

A 进阶深度解析 8 min

Transformer之后：新架构探索

Transformer之后：新架构探索 Mamba、RWKV、Hyena、xLSTM：突破二次复杂度瓶颈的下一代序列模型引言...

A 进阶深度解析 9 min

推测解码技术详解：加速LLM推理的关键

推测解码技术详解：加速LLM推理的关键 Draft-Verify范式如何将大模型推理速度提升2-4倍：从Speculative Decoding到Medusa Heads的工程实践引言...

A 进阶深度解析 8 min

混合专家模型（MoE）工程实践

混合专家模型（MoE）工程实践从Sparse Gating到DeepSeek-V3：MoE架构如何在万亿参数规模下实现高效推理引言混合专家模型（Mixture of Experts, MoE）是突破Dense...

A 进阶研究报告 8 min

Scaling Laws 与模型训练经济学

Scaling Laws 与模型训练经济学截至 2026-02 | Maurice | 灵阙学院一、Scaling Laws 的本质 Scaling Laws 描述的是一个简洁而深刻的经验规律：大语言模型的性能（以 loss 衡量）与三个核心变量之间存在幂律关系 -- 参数量 (N)、训练数据量 (D) 和计算量...

AI 认知基础

4 篇

A 入门教程 9 min

Embedding 向量技术入门与应用

Embedding 向量技术入门与应用从直觉理解到代码实战，掌握 AI 时代最重要的数据表示技术 Maurice | 灵阙学院前置准备 Python 3.10+ pip install openai numpy scikit-learn matplotlib 一、什么是 Embedding（向量嵌入） 1.1 直觉解释 Embedding 是把"含义"变成"数字"的技术。...

A 提升深度解析 10 min

Token 与分词器工作原理

Token 与分词器工作原理理解 AI 的"视觉"：大模型如何看待你输入的每一个字 Maurice | 灵阙学院前置准备 Python 3.10+ pip install tiktoken transformers openai 一、什么是 Token Token 是大模型处理文本的最小单位。模型不直接理解文字，而是把文字切分成 Token 后，转换成数字再处理。 1.1 直观示例...

A 提升深度解析 6 min

Transformer 架构深度解析

A 进阶教程 6 min

大模型微调实战：从 LoRA 到 QLoRA

大模型微调实战：从 LoRA 到 QLoRA Maurice | 灵阙学院 2026-02-27 微调 vs RAG：何时选择微调维度 RAG 微调两者结合知识更新频率高（实时替换文档）低（需重新训练）中风格/格式控制弱强最强推理成本较高（长 context）较低（知识内化）中幻觉控制强（有据可查）中（需要高质量数据）最强适用场景知识问答、文档检索...

开源精选

7 篇

S 提升深度解析 23 min 开源

模型工程

从这里开始 (Start Here)

Transformer 架构深度解析

平台架构

AI 推理优化：从模型压缩到推测解码

大模型微调实战：LoRA、QLoRA与全参数微调深度对比

边缘 AI 部署：从云端到端侧的模型优化

边缘 AI 部署：从云端到终端

LLM 推理引擎横评：vLLM vs SGLang vs TensorRT-LLM

战略洞察

LLM推理框架对比：vLLM vs TGI vs SGLang vs TensorRT-LLM

深度研究

Scaling Law的边界：大模型何时到顶

Transformer之后：新架构探索

推测解码技术详解：加速LLM推理的关键

混合专家模型（MoE）工程实践

Scaling Laws 与模型训练经济学

AI 认知基础

Embedding 向量技术入门与应用

Token 与分词器工作原理

Transformer 架构深度解析

大模型微调实战：从 LoRA 到 QLoRA

开源精选

LM Evaluation Harness: A Framework for Few-Shot Evaluation

LlamaFactory: Unified Fine-Tuning for 100+ LLMs

TRL: Transformer Reinforcement Learning (RLHF/DPO)

Unsloth: 2x Faster Fine-Tuning with 70% Less VRAM

vLLM: Fast and Easy LLM Serving and Inference

DeepEval: The Open-Source LLM Evaluation Framework

HuggingFace Smol Course -- Fine-tuning & Alignment