返回沙龙
← → 翻页
Internal Technical Talk · For All Teams
知识图谱从入门到落地
用最通俗的语言,读懂 AI 的「知识大脑」 以及它如何赋能我们的财税多智能体平台
Palantir 靠 KG(知识图谱)做到年营收 $44.8 亿
Forrester 实测 ROI(投资回报率)320%
Gartner 2025:KG 提升 LLM 准确率 54.2%
财税多智能体平台
产品经理 · 财税专家 · 智能体开发
⏱ 约 90 分钟
知识图谱 是将海量知识组织成机器可理解的语义网络的技术基础设施。
Sources: [1] Palantir FY2025 10-K (SEC, 2026-02; Revenue $4.48B, YoY +56%) [2] Forrester TEI: Stardog Enterprise KG, 2023 [3] Gartner "Enhance RAG Using KG" 2025 + "Top D&A Trends 2026: GraphRAG"
00
AGENDA
今天我们聊什么
五个篇章 -- 产品 / 业务 / 开发三种视角,从零开始建立完整认知
01
生活中的知识图谱
抛开术语,从你的大脑、搜索引擎说起
日常类比
零基础
02
核心结构解密
三元组(S-P-O)+ 本体——积木与图纸
核心概念
图可视化
03
谁在用?行业案例
Google、蚂蚁集团、医疗KG、华为、Agentic AI(自主智能体)……
案例驱动
数据说话
04
财税 × 知识图谱
多智能体 + 知识图谱 = 超级财税大脑
结合业务
实战场景
05
入门路线图
工具、资源、动手方法
行动指南
资源推荐
01
PART 01 · 从生活出发
你每天都在使用"知识图谱"
正式定义之前,先看看生活中的例子
Biz
淘宝"猜你喜欢"
买了手机壳,推荐钢化膜和充电线——淘宝用商品知识图谱 理解"手机壳→手机→配件"的关系链,比单纯看历史更精准。
Q
豆包 AI 问答
问"小规模纳税人要交哪些税?",豆包不仅回答,还追问"你是季度还是月度?"——这种沿关系链追问 正是知识图谱的思路。
Ent
抖音 / 小红书推荐
刷了几条旅行视频,立刻推酒店和机票攻略——背后是兴趣图谱 :用户→喜欢→旅行→关联→酒店/机票/美食。
Map
高德 / 美团搜"附近"
"附近的川菜馆"——高德/美团靠POI 知识图谱 把餐厅→菜系→位置→评分关联起来,一句话就能精准匹配。
01
PART 01 · 从生活出发
到底什么是知识图谱?
知识图谱 = 用「点 」表示事物,用「线 」表示关系,将海量知识组织成机器可读、可推理 的语义网络
如果知识是一座城市...
节点 = 城市里的建筑(企业、人、政策)关系 = 连接建筑的道路(持股、开票、适用)图谱 = 整张城市地图(导航任意两点)
如果知识是人脉圈...
节点 = 你认识的每个人关系 = 同事、朋友、亲属图谱 = 六度人脉,找到任何人的关系链
三元组 = 一句最短的话
「企业A → 法人代表 → 张三 」 主语 + 谓语 + 宾语 = 一个知识原子
✗ 传统数据库(表格思维)
数据像 Excel,行列存放
多层关系查询需 JOIN 四五张表
关系越深,性能越差
SELECT ... FROM A JOIN B JOIN C JOIN D WHERE ...
✓ 知识图谱(图思维)
数据像蜘蛛网,点线自然连接
沿关系"走"几步就到,性能不受层数影响
新增关系 = 加一条边,灵活扩展
A公司 →法人→ 张三 →配偶→ 李四 →控制→ B公司 →欠税→ ✓
核心优势:关系是一等公民 。更关键的是——当 AI 仍有 约2% 幻觉率 时(最佳模型已低至0.7%),知识图谱是唯一可溯源的事实底座
Sources: 幻觉率约2% — Vectara HHEM Leaderboard (2025 refreshed), allaboutai.com LLM Hallucination Index, 2026; 最佳: Gemini-2.0-Flash 0.7%
02
CORE STRUCTURE
图的两大核心:节点与边
知识图谱本质上就是一张图(Graph)-- 由节点 (点)和边 (线)构成
节点 Nodes
图中的"点" -- 代表现实世界中的实体或概念
实体节点 Entity
具体的人/物/组织
华为技术有限公司
任正非
概念节点 Concept
抽象类别或术语
增值税
科技行业
事件节点 Event
有时间属性的行为
2024年度审计
A轮融资
属性值 Literal
数值/日期/字符串
1,000万元
2025-01-01
边 Edges
图中的"线" -- 代表节点之间的语义关系
从属关系 Ownership
控股/任职/隶属
华为 →控股→ 海思半导体
张三 →任职于→ A公司
交易关系 Transaction
买卖/开票/支付
A公司 →开具发票→ B公司
客户X →购买→ 产品Y
分类关系 Classification
属于/是一种
增值税 →属于→ 流转税
华为 →属于→ 科技企业
时序关系 Temporal
发生于/截止于
合同A →签订于→ 2025-03
审计报告 →截止→ 2025-06
任正非
Entity / Person
任职于
华为
Entity / Company
控股
海思半导体
Entity / Company
属于
科技企业
Concept
开具发票
B公司
Entity / Company
时序 & 属性关系示例
年度审计
Event
截止于
2025-06
Literal
增值税发票
Event
金额
1,000万元
Literal
实体(人)
实体(组织)
概念
事件
属性值
从属
交易
分类
时序
属性
节点 = 名词 (Who / What) 边 = 动词 (How / Why)
02
PART 02 · 核心结构
知识图谱的"积木":三元组
整个图谱由无数三元组搭建而成,每个三元组就是一条知识
主语 SSubject · 谁?什么?
→
谓语 PPredicate · 什么关系
→
宾语 OObject · 谁?什么值?
主语 (S) 谓语 (P) 宾语 (O) 通俗理解
华为 总部位于 深圳 "华为的总部在深圳"
张三 法人代表 A科技有限公司 "张三是A公司的法人"
发票 #2026001 开票金额 50,000 元 "这张发票金额5万"
小规模纳税人 适用政策 季度≤30万免增值税 "小规模季度≤30万免税"
A公司 开票给 B公司 "A向B开了发票"
小结: 每个三元组 = 一句"谁 怎么了 什么 "。千万个三元组编织在一起 → 一张巨大的知识网络。
02
PART 02 · 核心结构
一张财税迷你知识图谱
节点是实体,箭头是关系——把三元组画出来,就是这张图
提示:图中每条箭头 + 两端节点 = 前面学的一个三元组;试着读出任意一条
法人代表
客户关系
交易 / 开票
持有
适用税率
开具
适用政策
所属行业
A科技公司
张三(法人)
B贸易公司
营业执照
增值税 13%
发票#2026001
小微企业免税
软件与信息
企业实体
自然人
关系
交易关系
每个「节点 + 箭头 + 节点」= 一个三元组
02
PART 02 · 核心结构
知识图谱的"图纸":本体
三元组是积木块,本体就是搭积木的说明书——规定怎么拼
本体 = 知识图谱的"说明书"
想象一盒乐高积木:本体就是那份拼装说明书 ——规定有哪些积木种类 、积木之间怎么拼接 、每块积木有什么规格 、以及什么搭法是不允许的
类 Class 积木种类:企业、自然人、 发票、税种、政策
关系 Relation 拼接方式:法人代表、开票给、 适用税率
属性 Property 积木规格:注册资本、 识别号、金额
约束 Constraint 搭建规则:"法人代表" 只能从 自然人→企业
本体层 = "拼装说明书"
积木:企业、自然人、发票、税种
拼法:法人代表(自然人 → 企业)
规则:一家企业只能有一个法人
⇄
实例层 = "拼好的模型"
A科技公司(一块企业积木)
张三 → 法人代表 → A公司(拼上一步)
A公司.注册资本 = 500万(属性值)
换个比喻:本体像公司组织架构图 (规定有哪些部门、汇报线),实例像具体的员工和汇报关系 。架构图不变,人来人去——这就是"规则和数据分离"的威力
02
PART 02 · 核心结构
概念速查手册:一张图分清所有术语
7 个核心概念,每个都有日常比喻,再也不会搞混
实体 Entity
一个具体的"东西" :一家公司、一个人、一张发票。
比喻:城市里的每栋建筑 ——有名字、有地址、有用途。
关系 Relation
两个实体之间的连接方式 :持股、开票给、法人代表。
比喻:建筑之间的道路 ——公路、铁路、管道,各不相同。
属性 Property
实体自身的特征数据 :注册资本、税号、金额。
比喻:建筑的身份证 ——面积、楼层、建造年份。
三元组 Triple
知识的最小单元 :主语 → 谓语 → 宾语。
比喻:一句最短的新闻 ——"XX大厦 → 隔壁是 → YY银行"。
事实 Fact
经过验证的三元组 。三元组是格式,事实是内容被确认为真。
比喻:新闻 vs 经过核实的新闻 ——事实 = 三元组 + 可信来源。
Schema 模式
偏数据存储与校验 的结构规范:表结构、字段类型、JSON 格式。
比喻:Excel 表头 ——规定每列填什么、什么格式。解决约 80% 结构问题。
本体 Ontology
偏语义与概念体系 的结构规范:类型层级、关系语义、推理规则。
比喻:组织架构图 ——规定部门层级、汇报线、哪些违规。跨系统统一语义时必要。
知识图谱 KG
本体 + 所有事实 的总和。说明书 + 全部已验证的知识网络。
比喻:公司本身 ——架构图 + 所有员工 + 所有汇报关系 = 完整的组织。
实体 是点,关系 是线,属性 是标签,三元组 是一句话,事实 是核实过的话,Schema 是表头,本体 是规则书,图谱 是整本百科全书
02
PART 02 · 核心结构
常见混淆概念 -- 画清边界
三组最容易搞混的概念,用一句话分清
图数据库 vs 知识图谱
知识图谱
语义模型 + 推理 + 数据 相当于仓库里有序摆好的货
图数据库是「容器」,知识图谱是「容器 + 内容 + 规则」
知识建模 vs 知识抽取
知识抽取
填写「表格」 从文本/数据中提取实体和关系
建模在前(先画蓝图),抽取在后(按蓝图填数据)
规则推理 vs LLM(大语言模型)推理
规则推理
确定性 · 可审计 「如果 A->B 且 B->C,则 A->C」
LLM 推理
概率性 · 可泛化 「根据上下文,最可能是...」
合规用规则(100% 一致),分析用 LLM(灵活但需复核)
记住一个原则:工具 解决「怎么存」,流程 解决「怎么建」,方法 解决「怎么用」
02
PART 02 · 核心结构
三元组无处不在——多行业示例
几乎所有行业的知识都可以用 S-P-O 表达
医疗
糖尿病 常见症状 多饮多尿
二甲双胍 用于治疗 2型糖尿病
阿司匹林 禁忌搭配 华法林
金融
王五 持股 60% C投资公司
C投资公司 担保 D地产公司
D地产公司 贷款来自 XX银行
电商
iPhone 17 品牌 Apple
用户A 购买 iPhone 17
iPhone 17 常搭配 AirPods Pro 3
财税
A科技公司 适用 增值税 13%
A科技公司 享受 高新技术优惠
发票001 开具方 A科技公司
物流
订单001 发货自 上海仓
货物X 运输方式 冷链专线
包裹002 签收人 张三
法律合规
企业B 违反 发票管理办法
财税[2024]01号 适用于 小规模纳税人
企业B 处罚记录 罚字2024-003
思考练习: 试着用三元组描述身边事物——"我 → 就职于 → XX公司 "、"XX公司 → 属于 → 财税行业 "——恭喜你,你已经在构建知识图谱了!
03
PART 03 · 谁在用
知识图谱的真实落地案例
从搜索引擎到金融风控,知识图谱已无处不在
共同点:行业不同,但解法一样——用关系连接一切 ,让机器像人一样"顺藤摸瓜"
Google Knowledge Graph
2012年发布至今持续迭代,5000亿+事实、50亿+实体 。2025年6月大幅精简提质(-6.26%冗余),深度融合 Gemini 驱动 AI Overview 搜索。
蚂蚁集团 -- 企业关联风控
十亿级节点 企业关联图谱 + GraphRAG,识别壳公司、循环担保。2025年响应效率提升200% 。
医疗知识图谱 -- 精准医药
2025年医药KG已覆盖基因-疾病-药品 多模态图谱,量子AI+KG预测药物靶点准确率达 92% 。
华为 — 智能客服
产品手册 + Agent协同构建图谱,精准定位答案,客户满意度从78%提升至92% 。
税务总局 -- 税务风控
纳税人关联图谱,虚开发票识别、骗取退税检测 。多层股权穿透分析。
Palantir -- Ontology 知识图谱
核心产品即 KG 平台,FY2025(2025财年)营收$44.8亿 (+56% YoY 同比)。服务国防、金融、医疗,ROI(投资回报率)标杆。
Sources: [1] Google KG: 500B+ facts, 5B+ entities (Official Blog, 2020); 2025.6 质量精简-6.26% [2] 蚂蚁集团技术年报, 2025 [3] Nature Reviews Drug Discovery, 2025 [4] 华为年报, 2024 [5] 国家税务总局公开报告 [6] Palantir FY2025 10-K (SEC 美国证监会年报 Filing)
04
PART 04 · 结合我们
财税领域为什么特别需要知识图谱?
财税天然是"关系密集型"领域
数据孤岛
企业、发票、财务、政策分散在多个系统,查关联关系需跨多系统。
关系迷宫
集团几十家子公司、交叉持股、多层嵌套。表格理到第三层就晕。
政策跟不上
2025年仅增值税相关政策更新60+条。知识库不实时就出错。
LLM 幻觉 = 财务风险
你问 AI"小规模纳税人季度限额多少?",它可能回答一个过期数字 ——即使是最好的模型也有约2% 的幻觉率,法律领域高达19%+。财税领域:错一个数就是损失 。
↓ 知识图谱如何解决 ↓
✓ 统一知识底座
打通企业、发票、税种、政策,形成互联互通的财税知识网络。
✓ 多跳查询秒级
股权穿透、关联排查——沿边走就行,不需 JOIN 一堆表。
✓ 动态可更新
新政策 → 新增图谱边 → 所有智能体实时获取最新知识。
✓ 消除幻觉、增强专家
GraphRAG(图谱增强检索生成)可将幻觉率降至<1% 。KG 负责记住所有条文和数字,专家负责判断和决策 ——不是替代你,是给你一个不会忘事的助手。
Sources: [1] 60+条 — 国家税务总局政策文件索引, 2025 [2] 约2%幻觉率 — Vectara HHEM 2025 refreshed + allaboutai LLM Hallucination Index, 2026 [3] 法律领域19%+ — LegalBench-RAG, 2025 (大幅改善但仍显著高于通用领域) [4] GraphRAG幻觉<1% — ICLR'26 GraphRAG-Bench (multi-hop)
04
PART 04 · 结合我们
财税知识图谱:本体设计示例
构建我们自己的财税知识图谱,第一步是写好"说明书"
为什么要先设计本体?因为没有说明书就没法拼积木 ——定好规则,后续所有智能体才能统一理解财税世界
核心实体类(8类)
纳税人 · 自然人 · 发票 · 税种 · 税收政策 · 申报表 · 行业 · 税务机关
核心关系(10+种)
开具 · 适用 · 受控于 · 属于 · 法人代表 · 持股例:纳税人 → 开具 → 发票 · 税种 → 受控于 → 政策
核心属性
纳税人: 信用代码、注册资本、信用等级发票: 代码、金额、税额、状态政策: 文号、生效/失效日期
约束规则示例
① 增值税专票开票方 必须 是一般纳税人
② 小微优惠 仅适用 年所得≤300万企业
③ 一家企业有且仅有 1个法人代表
④ 红冲发票必须对应 1张蓝字发票
Sources: 税务约束 — 财税[2023]1号(小规模免征); 财税[2023]12号(小微企业所得税)
04
PART 04 · 结合我们
多智能体 × 知识图谱 = 超级财税大脑
知识图谱为多个智能体提供"共享记忆"和"推理引擎"
数据 (原材料)→ 经本体 规则加工 → 形成知识图谱 (结构化底座)→ 供智能体 查询调用
AI
智能体层
税务咨询 · 发票审核 · 风险检测 · 申报助手 · 政策解读 —— 各司其职,协同工作
⬆⬇ 查询 / 推理 / 写入 / 验证
KG
知识图谱层
财税本体 + 千万级三元组 + 推理规则 —— 统一底座 · 全员共享 · 实时可溯源
⬆⬇ ETL(抽取/转换/加载) / NLP(自然语言处理)抽取 / 实体对齐 / 融合
DB
数据源层
金税系统 · 发票平台 · 工商数据 · 政策库 · ERP(企业资源规划) · 银行流水
财税专家
你是知识的源头 :定义本体规则、审核图谱质量、输入领域经验。KG 替你记住所有细节,你专注判断。
产品经理
你是场景的设计师 :决定哪些业务场景优先接入 KG、如何量化价值、怎样定义验收标准。
智能体开发
你是桥梁的建造者 :让 Agent 通过 API 查询图谱、用 Cypher 做推理、把 GraphRAG 管道跑通。
04
PART 04 · 结合我们
四大实战场景演示
看知识图谱如何在真实业务中发挥作用
智能税务问答
"季度不超30万,要交增值税吗?"
① LLM 理解意图,查询图谱
② 命中政策:季度≤30万 → 免征
③ 输出答案 + 附政策文号溯源
财税专家:日常高频 产品:核心功能
关联交易风险检测
自动扫描企业关系网络
① 图谱遍历 :A →法人→ 张三 →持股→ B
② 发现异常:关联企业高频大额开票
③ 生成风险报告 ,推送审核
财税专家:风控关键 开发:图遍历核心
智能申报辅助
Agent 自动填写申报表
① 图谱查询 :汇总本期进/销项
② 自动计算应纳税额
③ 约束校验 :金额与比例合规性
财税专家:省时最多 开发:Agent集成
政策变更智能同步
新政策发布 → 图谱自动更新
① NLP 解析新政策,抽取实体
② 影响分析 :遍历找出受影响企业
③ 通知 Agent + 推送客户提醒
财税专家:不再漏政策 产品:差异化卖点 开发:NLP管道
04
PART 04 · 结合我们
知识图谱 + 大模型:1 + 1 > 2
大模型 LLM
Claude Opus 4.6 · GPT-5.3 · Gemini 3.1 Pro · Kimi 2.5 · GLM-5 · MiniMax M2.5
✓ 擅长: 自然语言理解与生成、上下文推理
✗ 弱点: 知识过时、会"幻觉"编造事实
✗ 弱点: 缺乏可解释性、数字计算不可靠
比喻:博学但偶尔胡编的「学者 」
+
知识图谱 KG
✓ 擅长: 精确事实、结构化推理、可溯源
✓ 擅长: 实时更新、逻辑一致性、规则约束
✗ 弱点: 不理解自然语言、需要构建成本
比喻:精准但不会说话的「百科全书 」
白话版:LLM 是大脑 ,KG 是笔记本 ——大脑聪明但偶尔记岔,笔记本不会思考但从不记错;两者搭档才靠谱
LLM 负责「听懂用户、组织语言」 + KG 负责「提供事实、验证答案」
= GraphRAG(图增强检索生成) / LazyGraphRAG:既自然流畅,又专业精准
04
PART 04 · 结合我们
大数据 + 知识图谱:从「数据湖」到「知识湖」
已有基础
+ KG 新增
L1 数据采集
已有
Kafka / CDC (变更数据捕获)
API 接入
日志采集
文档解析 / 爬虫
L2 数据处理
已有
Spark / Flink / Hive (大数据引擎)
ETL 管道
数据清洗
数据质量校验
NLP
抽取
L3 知识语义层
+KG
-- 核心新增 --
Neo4j / TigerGraph (图数据库)
图计算引擎
推理引擎
本体建模 / 实体对齐
L4 智能应用
+KG
GraphRAG 智能问答
风控推理
数据治理仪表盘
合规自动检查
智能申报
数据治理 -- 血缘追溯、Schema 建模为图,数据资产一目了然
关联分析 -- 多跳穿透秒级完成,SQL JOIN 链做不到
智能标签 -- NLP 自动打语义标签,告别"先搜再猜"
大数据解决「量」 ,知识图谱解决「义」 ——先有量,再加义,数据价值指数级释放
04
PART 04 · 结合我们
从 RAG(检索增强生成)到 GraphRAG:演进全景
RAG 不是一种技术,而是一个不断进化的架构范式
Naive RAG
文档切块
向量嵌入
相似度检索
文档A 片段1
文档B 片段7
文档C 片段3
... 无结构拼接
碎片化、无关系、易丢上下文
准确率 ~43%
进化
Advanced RAG
智能分块
重排序 Rerank
查询改写
HyDE 假设文档
上下文压缩
多路召回融合
Self-RAG 自反思
更聪明的检索,但仍是平面文档
准确率 ~65%
质变
GraphRAG
企业
税种
政策
发票
实体+关系 = 结构化知识网络
多跳推理、跨域关联、可溯源
准确率 91% | 幻觉 <1%
白话版:Naive RAG = 按关键词找纸条拼答案;Advanced RAG = 更聪明地找纸条;GraphRAG = 先画地图再找路,从根本上理解知识之间的关系
领域子图 = 专业小 RAG
每个业务领域构建独立子图:税政子图 (政策+税种+适用条件)、企业子图 (股权+法人+行业)、发票子图 (品目+税率+开票方)—— 各子图独立维护、独立更新。
+
统一图谱 = GraphRAG
多个领域子图通过共享实体 (如"A公司"同时出现在企业图和发票图)自动连通,形成统一知识网络。跨域问题(如"A公司适用哪些优惠?")只需沿边遍历 ,无需跨库查询。
Sources: RAG演进分类 — Gao et al. "Retrieval-Augmented Generation for Large Language Models: A Survey" (2024); GraphRAG准确率 — ICLR'26 GraphRAG-Bench
04
PART 04 · 结合我们
GraphRAG 工作流详解
用户提问 → LLM 理解 → 查询图谱 → 组合回答
不用记技术细节——核心就一句:先查事实,再说话 ,所以不会胡说八道
→
→
图谱查询 LLM → Cypher(图查询语言) 或调用 KG API(应用接口)
→
→
→
纯 LLM 回答(即使是 GPT-5.3 / Claude Opus 4.6)
"可能 享受高新技术优惠……" 可能过时、无文号、不可溯源
GraphRAG 回答
"A公司属于软件行业,适用:① 即征即退 ② 研发费加计扣除 " ✓ 精确、有文号、可溯源
Sources: [1] 准确率43%→91% — ICLR'26 GraphRAG-Bench (multi-hop QA benchmark, 2026) [2] 可溯源率 — 架构特性:纯LLM无引用,KG查询天然可溯源 [3] 纯LLM幻觉~2% — Vectara HHEM 2025 refreshed + allaboutai 2026 [4] GraphRAG幻觉<1% — ICLR'26 GraphRAG-Bench; Microsoft GraphRAG评测
05
PART 05 · 入门引导
入门路线图:从 0 到 1
不管是开发、产品还是业务,都能找到切入点
推荐工具
图数据库: Neo4j 5.x / NebulaGraph框架: LangGraph 1.0查询: Cypher / GQL(ISO标准)
推荐资源
书: 《知识图谱:方法、实践与应用》课: 浙大 MOOC(大规模在线课程) · GraphAcademy练: AuraDB Free(在线沙盒)
角色切入(你的第一步)
财税专家: 挑一个最痛场景(如关联交易排查),用白板画出实体和关系 → 这就是本体设计的雏形产品经理: 选一个已有功能(如税务问答),写一页 KG 增强方案 → ROI 对比"有图谱 vs 无图谱"Agent 开发: 装 Neo4j Desktop,导入 50 条三元组 → 写 3 条 Cypher 查询 → 接入一个 Agent 做 demo
05
PART 05 · 入门引导
构建财税知识图谱的 6 个步骤
从本体设计到应用对接的完整流程
六步口诀:画图纸 → 找原料 → 提炼 → 去重 → 入库 → 接应用
① 本体设计
最重要的第一步。 和领域专家梳理实体类型、关系、约束。 Tools: Protege / draw.io
② 数据采集
从金税系统、发票平台、工商API(应用接口)、政策文件库获取原始数据。 Tools: ETL / API / OCR
③ 知识抽取
LLM驱动的自动抽取已成主流:从非结构化文本直接提取实体和关系。 Tools: LLM Extract / NER(命名实体识别)/ GraphRAG Index
④ 知识融合
"A科技有限公司"和"A科技(深圳)"是同一家?实体对齐、消歧。 Tools: Similarity Matching / Manual Review
⑤ 图谱存储
融合后的三元组导入图数据库,建索引优化查询性能。 Tools: Neo4j / NebulaGraph
⑥ 应用对接
开发 KG API,集成到多智能体平台,实现 GraphRAG。 Tools: Agent -> KG API -> Graph DB
05
PART 05 · 入门引导
图查询 vs SQL:同一个问题,两种思路
不用记语法 -- 只看"问法"和"查法"的区别核心区别:SQL 靠拼表 ,图查询靠"沿路走" -- 关系越深,差距越大
场景:查找公司法人代表
SQL 写法
SELECT p.name FROM 自然人 p JOIN 法人代表关系 r ON p.id = r.person_id JOIN 企业 c ON c.id = r.company_id WHERE c.name = 'A科技'
图查询
(自然人)-[法人代表]->(企业) 像说话一样: "沿着法人代表这条线走"
→ 返回:张三
场景:2层股权穿透
SQL 写法
SELECT c2.name FROM 企业 c1 JOIN 持股 s1 ON ... JOIN 企业 c_mid ON ... JOIN 持股 s2 ON ... JOIN 企业 c2 ON ... WHERE c1.name = 'A科技' -- 每多一层多 2 个 JOIN
图查询
(A科技)-[持股*1..2]-(企业) "沿着持股关系走1-2步" 层数再深也只改数字
→ 找出 2层以内 关联的所有企业
场景:查适用的税收优惠
SQL 写法
SELECT p.名称, p.文号 FROM 企业 c JOIN 企业行业 ci ON ... JOIN 行业 ind ON ... JOIN 企业税种 ct ON ... JOIN 税种 t ON ... JOIN 税种政策 tp ON ... JOIN 政策 p ON ... WHERE ... AND p.类型='优惠' -- 4张表 6次 JOIN
图查询
(企业)-[属于]->(行业) (企业)-[适用]->(税种) -[受控于]->(政策) "从企业出发,沿三条线 直接走到优惠政策"
→ 一次跨越 4种实体、3种关系
场景:发现循环开票嫌疑
SQL 写法
SELECT a.name, b.name, c.name FROM 发票 f1 JOIN 企业 a ON ... JOIN 发票 f2 ON ... JOIN 企业 b ON ... JOIN 发票 f3 ON ... JOIN 企业 c ON ... WHERE f3.buyer = a.id -- 环路检测极其复杂
图查询
(A)-[开票给]->(B) -[开票给]->(C) -[开票给]->(A) "找到开票的环路" 图数据库天生擅长环检测
→ 检测 A->B->C->A 循环开票
05
PART 05 · 入门引导
知识图谱的量化收益预期
基于2026年2月行业最新数据(全球KG市场$10.7亿(2024) -> 预计$69.4亿(2030),CAGR 36.6%)
86% vs 32%
GraphRAG vs Baseline RAG(企业级)
Microsoft Hierarchical Community, 2025
1.8%
SOTA最低幻觉率(Finix-S1-32B)
Vectara HHEM v2 Leaderboard, 2026.02.23
99.9%
LazyGraphRAG 索引成本降低
Microsoft Research, 2024; Azure集成 2025.06
$69.4亿
2030年KG全球市场规模预测
MarketsandMarkets, 2025 ($10.7亿→$69.4亿)
320%
知识图谱项目 ROI
Forrester TEI Study for Stardog, 2024
100%
答案可溯源(KG固有特性)
图结构天然可追溯
对你意味着什么?
产品经理
问答准确率 3x → 用户满意度直升 ;政策实时同步 → 功能迭代不再被"信息差"卡住。KG 项目 ROI 320% :图谱越完善,所有 AI 模块同步增强。
财税专家
60+ 政策/年自动入图 → 再也不怕漏更新 ;关联交易一键穿透 → 审计效率翻倍;幻觉降至 <1% → 数字有据可查,来源可溯源 。
智能体开发 / 大数据
GraphRAG 91% vs Naive 43% → 根本性质量提升 ;每条新知识自动连接全图 = 网络效应;LazyGraphRAG 索引成本降 99.9% → 大规模落地可行。
Sources: [1] GraphRAG 91% vs 43% — Microsoft Research "From Local to Global", 2024 [2] 幻觉率0.7% — Vectara HHEM Leaderboard / allaboutai.com, 2025-2026 [3] LazyGraphRAG 99.9% — Microsoft Research, 2024 [4] KG市场$690亿 — MarketsandMarkets, 2025-2030 [5] ROI 320% — Forrester TEI Study for Stardog, 2024
SUMMARY
今天的核心收获
五个模块的精华回顾
是什么
用"点+线"组织知识的语义网络。让机器像人一样理解事物关系。
核心结构
三元组(S-P-O, 主-谓-宾) = 最小知识单元。本体 = 类型+关系+属性+约束。
谁在用
Google、蚂蚁集团、医疗KG、华为、税务总局、Agentic AI……财税场景天然适合。
KG x Agent
知识图谱是智能体的"共享大脑"。GraphRAG = 精准 + 自然流畅。
知识图谱不是遥远的学术概念 --
它是让智能体从「能说话 」进化到「懂业务 」的关键基础设施
QUIZ TIME
现场小测验:你学到了多少?
点击卡片揭晓答案 -- 看看你能答对几道
-- 基础概念 --
Q1. 知识图谱的最小单元叫什么?
点击揭晓答案
三元组(Triple) 主语 → 谓语 → 宾语
Q2. Schema 和"本体"有什么区别?
点击揭晓答案
Schema = 数据格式校验(表头) 本体 = 语义概念体系(说明书) 80% 用 Schema 够,跨系统推理用本体
Q3. 用三元组表示"A公司开具了发票001"
点击揭晓答案
A公司 → 开具 → 发票001
Q4. "模式层"和"实例层"的区别?
点击揭晓答案
模式层 = 说明书(类型与约束) 实例层 = 拼好的模型(真实数据)
-- 价值认知 --
Q5. 相比传统数据库,KG 最大优势是?
点击揭晓答案
关系是一等公民 多跳查询性能不受层数影响
Q6. GraphRAG 解决了 LLM 的什么问题?
点击揭晓答案
消除幻觉 让回答有据可查、可溯源
Q7. KG 的"推理"能力具体指什么?
点击揭晓答案
根据已有边推导新关系 如 A持股B、B持股C → A间接控制C
Q8. 为什么多跳查询是 KG 的强项?
点击揭晓答案
图结构沿边遍历,无需多表 JOIN 性能不随跳数线性下降
-- 财税应用 --
Q9. 如何用 KG 做股权穿透分析?
点击揭晓答案
沿"持股"边多跳遍历 不需 JOIN 表,一条 Cypher 搞定
Q10. 虚开发票检测中,KG 怎样发现异常?
点击揭晓答案
遍历企业关联网络 识别关联方高频大额开票模式
Q11. 新税收政策发布后,KG 如何更新?
点击揭晓答案
NLP 抽取实体 → 新增图谱边 自动遍历受影响企业并推送
Q12. 用 KG 做税务合规检查的核心流程?
点击揭晓答案
查询企业关系网络 → 约束规则校验 → 输出合规/异常报告
THINK DEEPER
苏格拉底式提问:深度思考引导
不给答案,只给方向 -- 用提问激发你自己的洞察
澄清概念
"知识图谱和数据库的本质区别是什么?为什么不能直接用 MySQL?"
思考方向: 1. "关系是一等公民" -- MySQL 的 JOIN 操作和图数据库的"沿边遍历"在多跳查询时性能差异有多大? 2. 当关系本身也有属性(如"投资比例 60%"),关系型数据库如何表达?图数据库呢? 3. 试想一个需要 5 层穿透的股权查询 -- 两种方案的 SQL/Cypher 复杂度对比。
追问假设
"如果大模型的幻觉率降到 0%,我们还需要知识图谱吗?"
思考方向: 1. 即使 LLM 零幻觉,它能回答"这条结论的法规依据是什么?"并给出可审计的溯源链吗? 2. 当税务政策每月更新 5+ 条,LLM 如何"实时"感知?微调成本 vs 图谱增量更新成本? 3. 合规审计要求"可解释、可追溯" -- 纯 LLM 输出能通过审计吗?
探索边界
"知识图谱最不适合解决什么问题?它的局限性在哪里?"
思考方向: 1. 创意写作、情感分析、开放式对话 -- 这些"没有标准答案"的场景,KG 能否辅助?辅助到什么程度? 2. KG 的构建成本(领域专家 + 数据清洗)在什么规模下才值得投入?50条数据 vs 50万条? 3. 如果业务领域的知识变化极快(如社交热点),图谱维护成本会不会超过收益?
反向思考
"如果我们的财税系统不用 KG,三年后会变成什么样?"
思考方向: 1. 每年 60+ 条政策变更全靠人工追踪,团队规模翻倍后追踪成本是线性增长还是指数增长? 2. 没有 KG 的关联交易审查:A->B->C 三层穿透靠 Excel 需要多久?错误率多高? 3. 当业务规模扩大 10 倍,现有的"人工经验"模式还能撑多久?瓶颈在哪里?
类比迁移
"你身边还有什么场景,本质上也是'多跳关系查询'问题?"
思考方向: 1. 供应链溯源:原料->加工->物流->零售,每一跳都是"关系查询" -- 和财税穿透的本质区别是什么? 2. 反欺诈:手机号->银行卡->商户->IP地址,社交网络图谱如何发现"团伙"? 3. 你的日常工作中,有哪些场景本质上是在"沿着关系链追溯"?列举 2-3 个。
行动导向
"明天开始,你可以用什么最小行动验证 KG 的价值?"
思考方向: 1. 选一个最痛的场景(如股权穿透 / 政策关联),用 Neo4j 免费版 + 50 条数据建个最小图谱,一天就能跑通。 2. 从你手头现有的 Excel/数据库中,哪些数据最适合先导入图谱?优先级如何排? 3. 最小验证目标是什么?例如"用 Cypher 一条语句完成原来需要 3 张表 JOIN 的查询"。
感谢聆听
LLM + 知识图谱 = 既能聊天,又不胡说八道
“Creativity is just connecting things.”
创造力只是把事物联系起来。
-- Steve Jobs
“I think it’s important to reason from first principles rather than by analogy.”
我认为从第一性原理出发思考,而不是类比推理,这一点很重要。
-- Elon Musk