世界级 B 端代码智能体：云端沙盒架构图（Claude Agent SDK + Skills）

原创灵阙教研团队

S 精选进阶参考手册 | 约 7 分钟阅读更新于 2026-01-06

AI 导读

世界级 B 端代码智能体：云端沙盒架构图（Claude Agent SDK + Skills）目标：把“智能体推理”与“代码执行”彻底解耦，在多租户企业场景下实现最小权限、强隔离沙箱、可审计合规、可观测可回放、可扩展与成本可控。 Control Plane：鉴权 / 策略 / 编排 / 配额 Agent Plane：Claude Agent SDK + Skills + 工具编排...

世界级 B 端代码智能体：云端沙盒架构图（Claude Agent SDK + Skills）

目标：把“智能体推理”与“代码执行”彻底解耦，在多租户企业场景下实现 最小权限、强隔离沙箱、可审计合规、可观测可回放、可扩展与成本可控。

Control Plane：鉴权 / 策略 / 编排 / 配额 Agent Plane：Claude Agent SDK + Skills + 工具编排 Execution Plane：Kata/Firecracker/gVisor 沙箱池 Data Plane：日志/工件/评测/知识库 Security：短期凭证 + egress 白名单 + 审计链

1. 架构总览图（世界级 B 端智能体）

这张图把系统拆成四个平面：控制面（企业治理中枢）、智能体面（Claude Agent SDK + Skills）、执行面（强隔离沙箱）、数据面（工件/日志/评测/知识）。
企业级关键点：策略与审计必须在沙箱外强制执行；沙箱只负责“可控执行”。

切换：控制面切换：智能体面切换：执行面切换：数据面重置：全部显示

控制面（Control Plane）智能体面（Agent Plane）执行面（Execution Plane）数据面（Data Plane）

入口与企业集成（Entry & Enterprise Integrations）前端 UI / IDE 插件 (Prompt / 上下文 / 结果展示) 企业系统入口 (SSO / ITSM / ChatOps) 代码与工单来源 (GitHub/GitLab/Jira/ServiceNow) 知识与数据连接器 (Docs / Wiki / DB / API) 控制面 Control Plane（企业治理中枢：鉴权 / 策略 / 编排 / 配额 / 审计） API Gateway • AuthN/Z（JWT/OAuth/SSO） • Rate Limit / WAF • Request Signing Policy Engine • RBAC / ABAC / 组织策略 • allowed_tools / 网络白名单 • 数据分级与脱敏规则 Job Orchestrator • 排队 / 并发 / 超时 / 重试 • 人审/审批 Gate（可选） • 任务状态机 + 回放 Identity & Secret Broker • 短期凭证（TTL） • 最小权限 Token（Git/Artifacts） • KMS/Vault & Rotation 智能体面 Agent Plane（Claude Agent SDK + Skills + 工具编排 + 模型网关） Model Gateway • 多模型路由 / 回退 • 成本控制 / 预算 • Prompt 版本化 Agent Service • Claude Agent SDK（loop） • Context Builder（repo/issue） • Tool Adapter（转发到 Runner） Skill / Prompt Registry • .claude/skills/**/SKILL.md • 模板 / 规范 / 审核 • 变更与回滚 Tool Catalog • Read/Write/Bash/Skill • 连接器（API/DB/Docs） • 风险分级与审批执行面 Execution Plane（强隔离沙箱池：可控执行、不可信代码） Sandbox Runner API • /exec（命令：超时/资源限制） • /read /write（路径白名单+大小上限） • /diff /artifacts（交付物输出） • 统一审计：cmd / stdout / exit_code • 网络：默认断网，必要时 egress 白名单实现建议：Kata/Firecracker > gVisor > Rootless Docker Sandbox Pool • Workspace 挂载（只写工作区） • 依赖缓存（受控代理） • 构建/测试/静态分析 • 禁特权 / drop caps / seccomp • 配额：CPU/内存/磁盘/进程数可选：为高风险工具加“人审/双控” 数据面 Data Plane（工件 / 日志 / 评测 / 知识） Artifact Store • diff/patch • 测试报告 • 构建产物 • 可追溯版本化（job_id / commit） Observability • Trace（tool calls）• Logs • Metrics • 审计链（不可抵赖） Eval / Governance 离线回放 • 回归集 • 成本/成功率 KPI HTTPS Job Spec Agent Session Tool Calls Exec / FS Sandbox Artifacts 信任边界：控制面/智能体面与执行面隔离（所有不可信代码只在执行面运行）

图中最关键的“企业级强约束点”：Policy Engine（工具/网络/数据策略） + Secret Broker（短期最小权限凭证） + Runner（强隔离执行与审计）。

2. 设计原则（B 端必须具备）

最小权限与分层授权

每个任务按组织策略计算 allowed_tools；高风险工具（写入/网络/提交 PR）可加审批 Gate。

强隔离执行（不可信代码只进沙箱）

Agent 不直接执行命令；所有 Bash/FS 操作经 Runner，统一限额/超时/路径白名单/网络策略。

可审计、可回放、可追溯

记录每次工具调用与文件变更；交付物（diff/日志/报告）与 job_id、commit 强绑定。

模型网关与成本治理

多模型路由、降级与预算；将成本指标纳入 SLO（单任务 token/分钟/失败回滚）。

“只有前端 + 沙箱”在企业里通常不够：缺少鉴权、策略、审计、配额、队列、工件存储与合规治理。 正确做法是让后端变薄（控制面），而不是消失。

3. 信任边界与安全控制点（企业级核心）

3.1 必须“外置强制”的控制点

策略：allowed_tools、网络 egress、数据分级、路径规则 → Policy Engine
凭证：短期 token（TTL）+ 最小权限（Git/Artifacts/Connectors）→ Secret Broker
执行：资源限额、超时、只写工作区、禁特权 → Runner + Sandbox
审计：不可抵赖记录（tool calls、diff、命令）→ Observability/Audit

3.2 风险分级建议（示例）

Tier 0（安全）：Read / 搜索 / 静态分析
Tier 1（受控）：Write（仅工作区 + 小文件）/ 单元测试
Tier 2（高风险）：网络访问 / 依赖安装 / 生成提交
Tier 3（极高风险）：生产变更 / 触达敏感系统（必须审批）

B 端“世界级”通常来自：把 合规、风险与成本 作为一等公民（first-class citizen），而不是事后补丁。

4. 运行时形态（K8s / 多租户 / 隔离选型）

推荐隔离梯度

多租户/不可信代码：Kata / Firecracker（更强隔离） → 过渡：gVisor → MVP：Rootless Docker + 强约束

Runner 节点池策略

将 Runner 与 Sandboxes 放在独立 NodePool；默认断网；必要网络经 egress proxy + 域名白名单 + 流量审计。

作业生命周期

Orchestrator 创建 job → 分配 sandbox → Agent session 执行工具调用 → 产出 diff/报告 → 归档与回放。

缓存与可复现

依赖缓存只通过受控代理；镜像与工具链版本固化；每次 job 记录环境指纹（image digest + lockfile）。

5. 关键业务流（从输入到交付物）

5.1 标准交付流（最常用）

用户输入（需求/bug/任务） →
API Gateway 鉴权 →
Policy Engine 计算策略（allowed_tools / egress / 配额） →
Orchestrator 排队并分配沙箱 →
Agent Service（Claude Agent SDK + Skills）开始 loop →
Tool Calls（Read/Write/Bash）全部转发 Runner →
Runner 在强隔离沙箱里执行，产出日志/测试报告/diff →
Artifacts/Observability 归档 → 前端展示与下载（或生成 PR）

5.2 “人审/审批 Gate”插入点（B 端常见）

触发条件（示例）：
- 需要网络访问（依赖安装 / 外部 API）
- 需要提交到主分支 / 创建 PR
- 触达敏感目录或高风险工具 Tier 2/3

实现方式：
Orchestrator 将 job 状态置为 WAIT_APPROVAL →
审批通过后继续执行 / 否则终止并保留审计记录

6. 可观测、评测与治理（让系统长期“可控”）

观测（Observability）

OpenTelemetry Trace（每次工具调用）+ Logs（stdout/stderr 截断）+ Metrics（成功率/耗时/成本）。每个 job 具备 trace_id，可定位到具体命令与文件变更。

评测（Eval）

建立离线回放：固定仓库 + 任务集（回归），持续量化：成功率、迭代次数、人工介入、成本上限。

治理（Governance）

Skill/Prompt 版本化与审批；策略变更灰度；高风险工具单独审计；对外连接器全部最小权限化。

可靠性（SRE）

SLO：任务成功率、P95 时延、单任务成本；失败自动收敛（降级模型、缩小上下文、限制工具）。

如果你要把它做成“世界级 B 端”，建议把 策略引擎（Policy）、短期凭证（Secret Broker）、 审计链（Audit Trail）、评测回归（Eval） 作为第一天就内建的基础设施。

深度加工（NotebookLM 生成）

基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客，用于多场景复用

PPT 大纲（5-8 张幻灯片）点击展开

世界级 B 端代码智能体：云端沙盒架构图（Claude Agent SDK + Skills） — ppt

这是一份基于您提供的文章生成的 PPT 大纲，共包含 7 张幻灯片，涵盖了世界级 B 端代码智能体架构的核心要点：

幻灯片 1：世界级 B 端代码智能体架构总览

核心目标：将“智能体推理”与“代码执行”彻底解耦，以满足多租户企业场景下的严苛要求 [1]。
企业级特性：实现最小权限、强隔离沙箱、可审计合规、可观测可回放、可扩展与成本可控 [1]。
四大平面架构：系统整体划分为控制面（企业治理中枢）、智能体面（Claude Agent SDK + Skills）、执行面（强隔离沙箱）和数据面（工件/日志/评测/知识） [1]。
关键设计理念：策略与审计必须在沙箱外强制执行，沙箱仅负责“可控执行”不可信代码 [1, 2]。

幻灯片 2：核心中枢：控制面与智能体面

控制面（Control Plane）：作为企业治理中枢，负责统一的 API 鉴权、策略引擎（RBAC/网络白名单/数据分级）、任务编排与短期凭证管理 [1, 3]。
智能体面（Agent Plane）：基于 Claude Agent SDK 驱动，提供模型网关以实现多模型路由与成本控制 [3]。
技能与工具管理：内置 Skill / Prompt 注册表以规范模板与审核，同时维护包含 API、数据库和文档连接器的工具目录 [3]。
最小权限控制：通过 Identity & Secret Broker 发放短期凭证（TTL）和最小权限 Token，确保内部系统交互的安全 [3]。

幻灯片 3：安全底座：执行面与数据面

执行面（Execution Plane）：采用强隔离沙箱池（推荐 Kata/Firecracker），专门用于运行不可信代码 [3, 4]。
沙箱 API 与约束：所有操作通过 Runner API（读写/执行）进行，默认断网，具备严格的超时、资源配额限制和路径白名单 [3]。
数据面（Data Plane）：负责沉淀数字资产，包括工件存储（测试报告、构建产物、diff 等）与全局可观测性数据 [2, 3]。
统一审计链：详细记录每一次命令执行（cmd/stdout/exit_code）、工具调用，实现交付物与任务 ID 的强绑定及不可抵赖的审计链 [2, 3]。

幻灯片 4：B 端企业级必须具备的设计原则

最小权限与分层授权：系统按组织策略为每个任务计算允许使用的工具（allowed_tools），高风险工具需额外加持审批网关 [2]。
强隔离执行：Agent 绝不直接执行命令，所有文件系统或 Bash 操作必须经过受限的 Runner 进行 [2]。
可审计、可回放、可追溯：要求记录每一次变更与工具调用，确立成本、风险与合规作为架构的“一等公民” [2, 4]。
模型网关与成本治理：支持多模型降级与预算控制，将单任务 Token、耗时与成本指标纳入 SLO 体系 [2]。

幻灯片 5：信任边界与精细化安全分级

外置强制的控制点：策略、短期凭证、执行限制与审计记录必须独立于执行沙箱之外强制生效 [2]。
工具风险分级体系：对工具操作进行 Tier 0 到 Tier 3 的风险定级，从安全的读取搜索到极高风险的生产变更 [2, 4]。
人审/审批 Gate 机制：针对需要网络访问、提交 PR 或触达敏感系统（Tier 2/3 级别）的任务，需强制触发人工审批流程 [4]。
节点池隔离策略：将 Runner 与沙箱放置在独立节点池，网络流量需经过代理、域名白名单和严格审计 [4]。

幻灯片 6：从输入到交付的关键业务流

任务发起与策略计算：用户输入需求后，经网关鉴权并由策略引擎计算可用工具、配额与网络策略 [4]。
编排与分配：调度器进行排队，分配强隔离沙箱，并启动 Agent Service 循环 [4]。
执行与结果产出：Agent 所有的工具调用全部转发至 Runner，在沙箱内执行并产出日志与测试报告 [4]。
审批中断与恢复：遇到高风险触发条件时，调度器会将任务挂起（WAIT_APPROVAL），待审批通过后继续执行或终止 [4]。

幻灯片 7：可观测、评测与长期治理

全链路可观测性：引入 OpenTelemetry 记录每次调用的 Trace，并收集日志和成功率/耗时/成本等监控指标 [4, 5]。
持续评测（Eval）机制：建立固定仓库与任务集进行离线回放，量化成功率、迭代次数与人工介入频率 [5]。
系统长期治理：实行 Skill/Prompt 的版本化审核与策略灰度发布，确保所有对外连接器保持最小权限 [5]。
Day 1 基础设施：要在 B 端做到世界级，必须在项目第一天就将策略引擎、短期凭证、审计链和评测回归作为内建核心设施 [5]。

博客摘要 + 核心看点点击展开

世界级 B 端代码智能体：云端沙盒架构图（Claude Agent SDK + Skills） — summary

SEO 友好博客摘要

本文深入探讨了世界级 B 端代码智能体的云端沙盒架构设计，基于 Claude Agent SDK 构建，旨在实现“智能体推理”与“代码执行”的彻底解耦 [1]。该架构划分为控制面、智能体面、执行面与数据面四大核心模块，专为多租户企业场景量身打造 [1]。文章详细解析了如何通过 Kata 等强隔离沙箱、短期最小权限凭证以及全面的审计链，确保企业级环境下的数据安全与合规治理 [1-3]。无论您是关注 AI 代码助手的研发效率，还是企业级 AI 落地的安全可控，这份架构指南都将为您提供从策略编排到评测治理的完整落地方案 [1, 4]。

核心看点