AI芯片全景：从训练到推理

原创灵阙教研团队

A 推荐进阶研究报告 | 约 6 分钟阅读更新于 2026-02-28

AI 导读

AI芯片全景：从训练到推理 NVIDIA/AMD/Intel/Groq/Cerebras/华为昇腾：AI加速器架构对比与选型指南引言...

AI芯片全景：从训练到推理

NVIDIA/AMD/Intel/Groq/Cerebras/华为昇腾：AI加速器架构对比与选型指南

引言

AI芯片市场正处于前所未有的扩张期。NVIDIA凭借CUDA生态和GPU架构持续统治训练市场，但推理市场的竞争格局更加多元——AMD以性价比抢占云端份额，Groq以确定性延迟开辟新赛道，华为昇腾在国内市场快速渗透。本文将从芯片架构、性能指标、软件生态和成本效率四个维度进行系统性对比。

NVIDIA：生态垄断者

架构演进

NVIDIA GPU架构演进（AI相关）

Volta (V100, 2017)
├── Tensor Core 1.0: FP16矩阵乘法
├── 32GB HBM2, 900 GB/s
└── 训练时代开创者

Ampere (A100, 2020)
├── Tensor Core 3.0: TF32/BF16/INT8
├── 80GB HBM2e, 2 TB/s
├── Multi-Instance GPU (MIG)
└── 训练+推理双料冠军

Hopper (H100, 2023)
├── Tensor Core 4.0: FP8
├── 80GB HBM3, 3.35 TB/s
├── Transformer Engine
├── NVLink 4.0 (900 GB/s)
└── 大模型训练标配

Blackwell (B200/B300, 2025-2026)
├── 2nd Gen Transformer Engine
├── 192GB/288GB HBM3e
├── 8 TB/s+ HBM带宽
├── NVLink 5.0 (1.8 TB/s)
├── FP4推理支持
└── 推理性能4倍于H100

关键产品对比

指标	A100-80GB	H100-SXM	H200-SXM	B200
FP16 TFLOPS	312	989	989	4,500
FP8 TFLOPS	--	1,979	1,979	9,000
INT8 TOPS	624	1,979	1,979	9,000
HBM容量	80GB	80GB	141GB	192GB
HBM带宽	2.0 TB/s	3.35 TB/s	4.8 TB/s	8.0 TB/s
TDP	400W	700W	700W	1000W
NVLink	600 GB/s	900 GB/s	900 GB/s	1800 GB/s

AMD：性价比挑战者

MI300X架构特点

# AMD MI300X vs NVIDIA H100 value analysis
comparison = {
    "MI300X": {
        "fp16_tflops": 1307,
        "hbm_capacity_gb": 192,
        "hbm_bandwidth_tbs": 5.3,
        "tdp_w": 750,
        "estimated_price_usd": 15000,
        "software_ecosystem": "ROCm (improving)",
    },
    "H100_SXM": {
        "fp16_tflops": 989,
        "hbm_capacity_gb": 80,
        "hbm_bandwidth_tbs": 3.35,
        "tdp_w": 700,
        "estimated_price_usd": 30000,
        "software_ecosystem": "CUDA (dominant)",
    },
}

print("Performance per Dollar (higher = better value):")
for name, spec in comparison.items():
    perf_per_dollar = spec["fp16_tflops"] / spec["estimated_price_usd"] * 1000
    mem_per_dollar = spec["hbm_capacity_gb"] / spec["estimated_price_usd"] * 1000
    bw_per_dollar = spec["hbm_bandwidth_tbs"] / spec["estimated_price_usd"] * 1e6
    print(f"\n{name}:")
    print(f"  TFLOPS/$1K: {perf_per_dollar:.1f}")
    print(f"  GB/$1K:     {mem_per_dollar:.1f}")
    print(f"  TB/s/$1M:   {bw_per_dollar:.1f}")

ROCm软件生态现状

框架/工具	CUDA支持	ROCm支持	状态
PyTorch	原生	原生	成熟
vLLM	完整	完整	生产就绪
DeepSpeed	完整	大部分	可用
TensorRT	原生	N/A	NVIDIA专有
Triton	原生	支持中	改善中
FlashAttention	完整	支持	可用
NCCL	原生	RCCL替代	可用

专用推理芯片

Groq LPU

Groq LPU架构特点

核心理念: 确定性计算（Deterministic Computing）

传统GPU推理:                    Groq LPU推理:
┌─────────────────┐            ┌─────────────────┐
│ DRAM ←→ L2 ←→ SM │            │  230MB SRAM      │
│                   │            │  (全部片上存储)    │
│ 数据在内存层级    │            │                   │
│ 之间来回搬运      │            │  无外部内存        │
│ 延迟不确定        │            │  无缓存未命中      │
└─────────────────┘            │  确定性延迟        │
                               └─────────────────┘

性能特征:
  片上SRAM: 230MB (无HBM)
  内部带宽: ~80 TB/s (片上)
  INT8: ~750 TOPS
  延迟: 确定性，接近零抖动
  功耗: ~300W

适用模型: <230MB权重 (约7B INT4)
                或通过多卡分片支持更大模型

优势: 超低延迟(TTFT)，确定性QoS
劣势: 单卡容量小，大模型需多卡

Cerebras CS-3

Cerebras Wafer-Scale Engine

传统芯片: ~800mm² (光刻极限)
Cerebras WSE-3: 46,225mm² (整个晶圆!)

┌──────────────────────────────────┐
│                                  │
│   900,000 AI Cores               │
│   44GB On-chip SRAM              │
│   ~20 PB/s Internal Bandwidth   │
│                                  │
│   单晶圆 = 整个神经网络          │
│   无数据搬运瓶颈                  │
│                                  │
└──────────────────────────────────┘

推理性能:
  Llama 3.1 70B: ~1,800 tok/s (batch=1)
  训练: 可训练万亿参数模型（weight streaming）

独特能力:
  Weight Streaming: 模型权重从外部SSD流入
  适合超大模型训练（内存不是瓶颈）

Intel Gaudi 3

指标	Gaudi 3	H100	对比
BF16 TFLOPS	1,835	989	Gaudi +85%
FP8 TFLOPS	3,670	1,979	Gaudi +85%
HBM容量	128GB	80GB	Gaudi +60%
HBM带宽	3.68 TB/s	3.35 TB/s	接近
TDP	900W	700W	Gaudi +29%
网络带宽	24x200GbE	NVLink 900GB/s	不同架构
软件	Synapse AI	CUDA	Gaudi较弱

华为昇腾：国产替代

昇腾生态

华为昇腾AI芯片谱系

训练芯片:
├── 昇腾910B: 512 TFLOPS (FP16), 64GB HBM
├── 昇腾910C: 性能提升（量产中）
└── 昇腾920（预期）: 对标H100+

推理芯片:
├── 昇腾310: 16 TOPS (INT8), 边缘推理
├── 昇腾310P: 增强版
└── 昇腾310B: 嵌入式

软件栈:
├── CANN (Compute Architecture for Neural Networks)
│   └── 类似CUDA的底层计算库
├── MindSpore（昇思）
│   └── 自研深度学习框架
├── MindSpore Lite
│   └── 端侧推理引擎
└── ModelArts
    └── AI开发平台（华为云）

生态挑战:
  优势: 国产可控，政策支持，供应链安全
  劣势: 软件生态远不如CUDA，第三方支持少
  趋势: PyTorch后端适配改善中，vLLM适配推进中

国产替代选型

# Domestic AI chip selection for China market
def china_chip_selection(
    scenario: str,
    model_size_b: float,
    budget_level: str,
    compliance_required: bool = True,
) -> dict:
    """Recommend AI chips for China-based deployments."""

    chips = {
        "ascend_910b": {
            "fp16_tflops": 512, "hbm_gb": 64,
            "price_factor": 0.6, "ecosystem": 0.5,
            "supply": "domestic", "compliance": True,
        },
        "h100_sxm": {
            "fp16_tflops": 989, "hbm_gb": 80,
            "price_factor": 1.0, "ecosystem": 1.0,
            "supply": "restricted", "compliance": True,
        },
        "a100_80gb": {
            "fp16_tflops": 312, "hbm_gb": 80,
            "price_factor": 0.5, "ecosystem": 1.0,
            "supply": "limited_stock", "compliance": True,
        },
        "mi300x": {
            "fp16_tflops": 1307, "hbm_gb": 192,
            "price_factor": 0.7, "ecosystem": 0.7,
            "supply": "available", "compliance": True,
        },
    }

    if compliance_required:
        # Filter out restricted supply
        chips = {k: v for k, v in chips.items()
                 if v["supply"] not in ["restricted"]}

    # Score based on scenario
    scored = {}
    for name, spec in chips.items():
        if scenario == "training":
            score = spec["fp16_tflops"] * 0.4 + spec["ecosystem"] * 100 * 0.3 + (1/spec["price_factor"]) * 50 * 0.3
        else:  # inference
            score = spec["hbm_gb"] * 0.4 + spec["ecosystem"] * 100 * 0.3 + (1/spec["price_factor"]) * 50 * 0.3
        scored[name] = round(score, 1)

    best = max(scored, key=scored.get)
    return {"recommendation": best, "scores": scored}

# Example
result = china_chip_selection("inference", 70, "medium", compliance_required=True)
print(f"Recommendation: {result['recommendation']}")
for chip, score in sorted(result["scores"].items(), key=lambda x: -x[1]):
    print(f"  {chip}: {score}")

选型决策矩阵

场景	首选	备选	理由
大模型训练(海外)	H100/B200	MI300X	CUDA生态无可替代
大模型训练(国内)	昇腾910B/C	MI300X	供应链安全
在线推理(低延迟)	Groq LPU	H100/B200	确定性延迟
在线推理(高吞吐)	H100/B200	MI300X	性价比平衡
超大模型训练	Cerebras CS-3	B200集群	无内存瓶颈
边缘推理	Jetson Orin	昇腾310	功耗/性能平衡
成本敏感推理	MI300X	A100(存量)	性价比最高

总结

AI芯片市场正在从"NVIDIA一家独大"走向"多元化竞争"。训练市场短期内NVIDIA的统治地位难以撼动，这不仅是硬件性能的问题，更是CUDA生态二十年积累的护城河。但推理市场的格局更加开放：AMD以2倍的性价比赢得云厂商青睐，Groq以确定性延迟开辟差异化赛道，华为昇腾在国内市场因供应链安全而获得政策性需求。对工程团队而言，选芯片的核心考量已经从"谁的TFLOPS最高"转变为"在我的约束条件下，谁的TCO最低"——约束条件包括软件生态成熟度、供应链稳定性、功耗预算和合规要求。

Maurice | [email protected]

深度加工（NotebookLM 生成）

基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客，用于多场景复用

PPT 大纲（5-8 张幻灯片）点击展开

AI芯片全景：从训练到推理 — ppt

这是一份基于您提供的文章生成的 PPT 大纲，共 6 张幻灯片。

AI芯片全景：从训练到推理概览

市场格局演变：AI芯片市场正处于前所未有的扩张期，正在从“NVIDIA一家独大”走向“多元化竞争” [1, 2]。
训练与推理分化：NVIDIA凭借CUDA生态优势持续统治训练市场；而推理市场则呈现出AMD、Groq、华为等多元化竞争的态势 [1, 2]。
四大评估维度：目前的芯片评估主要围绕芯片架构、性能指标、软件生态和成本效率四个系统性维度展开 [1]。
选型核心逻辑转变：工程团队的选型核心考量已从单纯看重最高算力（TFLOPS），转变为在软件生态、供应链稳定性、功耗预算和合规要求等约束条件下，追求最低的总拥有成本（TCO） [2]。

NVIDIA：训练市场的生态垄断者

无可替代的护城河：NVIDIA在训练市场的绝对统治地位不仅源于硬件，更源于二十年积累的CUDA软件生态 [2]。
架构持续演进：其AI芯片架构从开创训练时代的Volta（V100），经过Ampere（A100）和大模型标配的Hopper（H100），一路演进至最新的Blackwell架构 [1]。
Blackwell性能飞跃：最新的B200芯片配备了192GB HBM3e内存，其推理性能达到了H100的四倍 [1]。
推荐适用场景：由于生态垄断，NVIDIA H100和B200仍是海外大模型训练和在线高吞吐推理的首选方案 [2]。

AMD：主打高性价比的云端挑战者

突出的性价比：AMD以极高的性价比抢占云端推理市场份额，其MI300X在显存容量（192GB）和内存带宽（5.3 TB/s）上均超越了H100 [1, 2]。
ROCm软件生态改善：尽管底层生态曾是短板，但目前ROCm对PyTorch已实现原生支持，对vLLM的适配也已达到生产就绪状态 [3]。
最佳应用场景：在成本敏感型推理场景以及高吞吐量的在线推理场景中，AMD MI300X是性价比最高的优质备选方案 [2]。

专用计算芯片：Groq、Cerebras与Intel架构创新

Groq LPU 的确定性计算：Groq放弃了传统的HBM，采用230MB全片上SRAM设计，消除了数据搬运瓶颈，实现接近零抖动的超低确定性延迟，是在线低延迟推理的首选 [2, 3]。
Cerebras 的晶圆级巨兽：Cerebras CS-3 采用一整块晶圆（WSE-3架构），拥有高达44GB的片上SRAM，并通过权重流（Weight Streaming）技术解决内存瓶颈，非常适合超大模型训练 [2-4]。
Intel Gaudi 3 的硬件潜力：Gaudi 3 在TFLOPS和HBM容量（128GB）等硬件指标上显著优于H100，但由于其Synapse AI软件生态较弱，仍面临落地挑战 [4]。

华为昇腾：国产替代与供应链安全主力

完整的芯片谱系：华为昇腾具备从训练（昇腾910系列）到边缘及嵌入式推理（昇腾310系列）的完整AI芯片产品线 [4]。
核心优势与驱动力：其在国内市场快速渗透的核心优势在于自主可控的供应链安全以及政策性支持 [1, 2]。
自研软件生态系统：构建了以CANN底层计算库和MindSpore（昇思）深度学习框架为核心的软件栈 [4]。
生态挑战与进展：虽然第三方支持远不如CUDA，但目前对PyTorch和vLLM等主流后端的适配正在持续推进和改善中，是国内大模型训练的首选方案 [2, 4]。

AI芯片选型决策矩阵总结

大模型训练：海外无供应链限制时，首选 NVIDIA H100/B200；在国内合规与供应链受限环境下，首选 华为昇腾910系列 [2]。
超大模型训练：可考虑使用 Cerebras CS-3，利用其无内存瓶颈的优势 [2]。
在线推理：追求极致极低延迟的场景首推 Groq LPU；而在平衡性价比与高吞吐的场景中，推荐使用 NVIDIA H100/B200 或备选 AMD MI300X [2]。
成本优先：对于成本极其敏感的推理任务，AMD MI300X 或存量市场上的 A100 能提供最高的性价比 [2]。

博客摘要 + 核心看点点击展开

AI芯片全景：从训练到推理 — summary

这里为您生成基于该文章的 SEO 友好博客摘要及核心看点：

SEO 友好博客摘要（约 150 字）：
AI芯片市场正从英伟达一家独大走向多元竞争[1]。本文全面盘点AI加速器全景，深度对比NVIDIA、AMD、Groq及华为昇腾的架构与生态[2, 3]。NVIDIA凭借CUDA在训练市场保持垄断，而推理市场则涌现出主打性价比的AMD和超低延迟的Groq[1, 2]。此外，华为昇腾凭借供应链安全成为国产替代首选[1]。企业算力选型已从单纯追求峰值算力转向评估总体拥有成本（TCO）[1]。

3 条核心看点：