跳至主内容

模型工程

LLM 评测框架、LoRA 微调、RLHF/DPO 对齐与推理加速

22 篇文章 | 5 个专题
难度
排序
类型

平台架构

5 篇
S 提升 深度解析 8 min

AI 推理优化:从模型压缩到推测解码

AI 推理优化:从模型压缩到推测解码 量化技术(GPTQ/AWQ/GGUF)、推测解码、KV-Cache 优化与 vLLM/TGI 生产部署全解析 引言 大语言模型的推理成本是制约其大规模部署的核心瓶颈。一个 70B 参数的模型在 FP16 下需要约 140GB 显存,远超单卡容量。即使能装下,自回归解码的逐 token 生成方式导致 GPU 利用率极低——推理过程是 memory-bound...

S 提升 对比评测 7 min

大模型微调实战:LoRA、QLoRA与全参数微调深度对比

大模型微调实战:LoRA、QLoRA与全参数微调深度对比 概述 大模型微调(Fine-tuning)是将通用预训练模型适配到特定领域任务的核心技术。随着模型参数量从数十亿到数千亿的爆发式增长,全参数微调的计算成本已经超出大多数团队的承受范围。参数高效微调(PEFT)技术应运而生,其中 LoRA 和 QLoRA 成为当前最主流的两种方案。...

S 进阶 深度解析 7 min

边缘 AI 部署:从云端到端侧的模型优化

边缘 AI 部署:从云端到端侧的模型优化 概述 边缘 AI(Edge AI)将 AI 推理从云端移到设备端(手机、IoT 设备、浏览器、嵌入式系统),核心目标是降低延迟、保护隐私、减少带宽依赖。 关键挑战:端侧设备算力和内存有限,必须对模型进行大幅压缩和优化。本文系统覆盖模型量化、知识蒸馏、结构优化和推理引擎四个维度。 模型压缩技术全景 模型压缩技术栈 | ├── 量化...

S 进阶 教程 7 min

边缘 AI 部署:从云端到终端

边缘 AI 部署:从云端到终端 ONNX Runtime、TensorRT、Core ML、WebGPU 运行时对比,模型优化压缩技术与端侧推理实战 引言 云端 AI 推理面临三大制约:网络延迟(用户体验)、带宽成本(数据传输)和隐私合规(数据出境)。边缘 AI 将推理计算推到离用户最近的位置——手机、浏览器、IoT 设备甚至芯片内部——从根本上消除了这些制约。 本文覆盖边缘 AI...

S 提升 对比评测 13 min

LLM 推理引擎横评:vLLM vs SGLang vs TensorRT-LLM

LLM 推理引擎横评:vLLM vs SGLang vs TensorRT-LLM 作者:Maurice | 灵阙学院 导读 如果你正在为自家产品部署开源大模型,这篇文章能帮你少踩至少半年的坑。推理引擎这个赛道看似底层,但它直接决定你的 GPU 成本、API 延迟和用户体验——对 AI 产品经理和技术负责人而言,选错引擎等于把钱烧进黑洞。 本文基于 2025-2026 年...

深度研究

5 篇
A 提升 深度解析 9 min

Scaling Law的边界:大模型何时到顶

Scaling Law的边界:大模型何时到顶 Scaling Law是驱动大模型进步的核心引擎。从Kaplan到Chinchilla,从GPT-3到GPT-5,"越大越好"的范式塑造了整个行业。但这条曲线是否有尽头?本文深入分析Scaling Law的理论基础、实证证据、边界条件与"后Scaling"时代的技术路径。 一、Scaling Law基础 1.1 什么是Scaling Law...

A 进阶 深度解析 8 min

Transformer之后:新架构探索

Transformer之后:新架构探索 Mamba、RWKV、Hyena、xLSTM:突破二次复杂度瓶颈的下一代序列模型 引言...

A 进阶 深度解析 9 min

推测解码技术详解:加速LLM推理的关键

推测解码技术详解:加速LLM推理的关键 Draft-Verify范式如何将大模型推理速度提升2-4倍:从Speculative Decoding到Medusa Heads的工程实践 引言...

A 进阶 深度解析 8 min

混合专家模型(MoE)工程实践

混合专家模型(MoE)工程实践 从Sparse Gating到DeepSeek-V3:MoE架构如何在万亿参数规模下实现高效推理 引言 混合专家模型(Mixture of Experts, MoE)是突破Dense...

A 进阶 研究报告 8 min

Scaling Laws 与模型训练经济学

Scaling Laws 与模型训练经济学 截至 2026-02 | Maurice | 灵阙学院 一、Scaling Laws 的本质 Scaling Laws 描述的是一个简洁而深刻的经验规律:大语言模型的性能(以 loss 衡量)与三个核心变量之间存在幂律关系 -- 参数量 (N)、训练数据量 (D) 和计算量...

AI 认知基础

4 篇
A 入门 教程 9 min

Embedding 向量技术入门与应用

Embedding 向量技术入门与应用 从直觉理解到代码实战,掌握 AI 时代最重要的数据表示技术 Maurice | 灵阙学院 前置准备 Python 3.10+ pip install openai numpy scikit-learn matplotlib 一、什么是 Embedding(向量嵌入) 1.1 直觉解释 Embedding 是把"含义"变成"数字"的技术。...

A 提升 深度解析 10 min

Token 与分词器工作原理

Token 与分词器工作原理 理解 AI 的"视觉":大模型如何看待你输入的每一个字 Maurice | 灵阙学院 前置准备 Python 3.10+ pip install tiktoken transformers openai 一、什么是 Token Token 是大模型处理文本的最小单位。模型不直接理解文字,而是把文字切分成 Token 后,转换成数字再处理。 1.1 直观示例...

A 提升 深度解析 6 min

Transformer 架构深度解析

Transformer 架构深度解析 Maurice | 灵阙学院 2026-02-27 一句话理解 Transformer Transformer 的本质是一个"注意力驱动的序列到序列映射器":给定输入序列中的每个位置,它通过注意力机制动态地从所有其他位置收集信息,而不像 RNN 那样被迫按顺序逐步传递。这使得它天然支持并行计算,且能捕获任意距离的依赖关系。 整体架构...

A 进阶 教程 6 min

大模型微调实战:从 LoRA 到 QLoRA

大模型微调实战:从 LoRA 到 QLoRA Maurice | 灵阙学院 2026-02-27 微调 vs RAG:何时选择微调 维度 RAG 微调 两者结合 知识更新频率 高(实时替换文档) 低(需重新训练) 中 风格/格式控制 弱 强 最强 推理成本 较高(长 context) 较低(知识内化) 中 幻觉控制 强(有据可查) 中(需要高质量数据) 最强 适用场景 知识问答、文档检索...

开源精选

7 篇
S 提升 深度解析 23 min 开源

LM Evaluation Harness: A Framework for Few-Shot Evaluation

Language Model Evaluation Harness Latest News [2025/12] CLI refactored with subcommands (run, ls, validate) and YAML config file support via --config. See the CLI Reference and Configuration Guide....

S 进阶 深度解析 19 min 开源

LlamaFactory: Unified Fine-Tuning for 100+ LLMs

Used by Amazon, NVIDIA, Aliyun, etc. Supporters Warp, the agentic terminal for developersAvailable for MacOS, Linux, & Windows Easily fine-tune 100+ large language models with zero-code CLI and Web...

S 提升 深度解析 3 min 开源

TRL: Transformer Reinforcement Learning (RLHF/DPO)

TRL - Transformer Reinforcement Learning A comprehensive library to post-train foundation models What's New OpenEnv Integration: TRL now supports OpenEnv, the open-source framework from Meta for...

S 提升 深度解析 13 min 开源

Unsloth: 2x Faster Fine-Tuning with 70% Less VRAM

Train gpt-oss, DeepSeek, Gemma, Qwen & Llama 2x faster with 70% less VRAM! Train for Free Notebooks are beginner friendly. Read our guide. Add dataset, run, then deploy your trained model. Model Free...

S 进阶 深度解析 2 min 开源

vLLM: Fast and Easy LLM Serving and Inference

Easy, fast, and cheap LLM serving for everyone | Documentation | Blog | Paper | Twitter/X | User Forum | Developer Slack | We have built a vllm website to help you get started with vllm. Please visit...

A 提升 深度解析 9 min 开源

DeepEval: The Open-Source LLM Evaluation Framework

The LLM Evaluation Framework Documentation | Metrics and Features | Getting Started | Integrations | DeepEval Platform DeepEval is a simple-to-use, open-source LLM evaluation framework, for...

A 提升 深度解析 112 min 开源

HuggingFace Smol Course -- Fine-tuning & Alignment

HuggingFace Smol Course A practical, hands-on course on aligning language models. Covers instruction tuning (SFT), evaluation, preference alignment (DPO), and vision-language models. Everything runs...