Neo4j LLM Graph Builder: Full-Stack Knowledge Graph from Documents

转载 neo4j-labs

A 推荐提升深度解析 | 约 9 分钟阅读更新于 2026-03-06

本文为开源社区精选内容，由 neo4j-labs 原创。文中链接将跳转到原始仓库，部分图片可能加载较慢。

AI 导读

Knowledge Graph Builder Transform unstructured data (PDFs, DOCs, TXTs, YouTube videos, web pages, etc.) into a structured Knowledge Graph stored in Neo4j using the power of Large Language Models...

Knowledge Graph Builder

知识图谱构建器

Transform unstructured data (PDFs, DOCs, TXTs, YouTube videos, web pages, etc.) into a structured Knowledge Graph stored in Neo4j using the power of Large Language Models (LLMs) and the LangChain framework.

利用大型语言模型 (Large Language Models, LLMs) 和 LangChain 框架的强大功能，将非结构化数据（PDF、DOC、TXT、YouTube 视频、网页等）转换为存储在 Neo4j 中的结构化知识图谱。

This application allows you to upload files from various sources (local machine, GCS, S3 bucket, or web sources), choose your preferred LLM model, and generate a Knowledge Graph.

此应用程序允许您从各种来源（本地机器、GCS、S3 存储桶或网络来源）上传文件，选择您喜欢的 LLM 模型，并生成知识图谱。

Key Features

主要特性

Knowledge Graph Creation

知识图谱创建

Seamlessly transform unstructured data into structured Knowledge Graphs using advanced LLMs.

使用先进的 LLM 将非结构化数据无缝转换为结构化知识图谱。

Extract nodes, relationships, and their properties to create structured graphs.

提取节点、关系及其属性以创建结构化图。

Schema Support

模式支持

Use a custom schema or existing schemas configured in the settings to generate graphs.

使用自定义模式或在设置中配置的现有模式来生成图。

Graph Visualization

图形可视化

View graphs for specific or multiple data sources simultaneously in Neo4j Bloom.

在 Neo4j Bloom 中同时查看特定或多个数据源的图。

Chat with Data

与数据对话

Interact with your data in the Neo4j database through conversational queries.

通过对话式查询与 Neo4j 数据库中的数据交互。

Retrieve metadata about the source of responses to your queries.

检索有关查询响应来源的元数据。

For a dedicated chat interface, use the standalone chat application with the /chat-only route.

对于专用的聊天界面，请使用带有 /chat-only 路由的独立聊天应用程序。

LLMs Supported

支持的 LLM

OpenAI

Gemini

Diffbot

Azure OpenAI (dev deployed version)

Azure OpenAI（开发部署版本）

Anthropic (dev deployed version)

Anthropic（开发部署版本）

Fireworks (dev deployed version)

Fireworks（开发部署版本）

Groq (dev deployed version)

Groq（开发部署版本）

Amazon Bedrock (dev deployed version)

Amazon Bedrock（开发部署版本）

Ollama (dev deployed version)

Ollama（开发部署版本）

Deepseek (dev deployed version)

Deepseek（开发部署版本）

Other OpenAI-compatible base URL models (dev deployed version)

其他与 OpenAI 兼容的基本 URL 模型（开发部署版本）

Token Usage Tracking

Token 使用情况跟踪

Easily monitor and track your LLM token usage for each user and database connection.

轻松监控和跟踪每个用户和数据库连接的 LLM token 使用情况。

Enable this feature by setting the TRACK_USER_USAGE environment variable to true in your backend configuration.

通过在后端配置中将 TRACK_USER_USAGE 环境变量设置为 true 来启用此功能。

View your daily and monthly token consumption and limits, helping you manage usage and avoid overages.

查看您的每日和每月 token 消耗量和限制，帮助您管理使用情况并避免超额使用。

You can check your remaining token limits at any time using the provided API endpoint.

您可以使用提供的 API 终结点随时查看剩余的 token 限制。

Embedding Model Selection

Embedding 模型选择

Choose from a variety of embedding models to generate vector embeddings for your data. This can be configured from the frontend in Graph Settings > Processing Configuration > Select Embedding Model.

从各种 embedding 模型中进行选择，为您的数据生成向量嵌入 (vector embeddings)。这可以在前端的“图设置 (Graph Settings) > 处理配置 (Processing Configuration) > 选择 Embedding 模型 (Select Embedding Model)”中进行配置。

Supported model providers include OpenAI, Gemini, Amazon Titan, and Sentence Transformers.

支持的模型提供商包括 OpenAI、Gemini、Amazon Titan 和 Sentence Transformers。

Your selected embedding model is saved to your user profile when TRACK_USER_USAGE is enabled.

启用 TRACK_USER_USAGE 后，您选择的 embedding 模型将保存到您的用户个人资料中。

Local Configuration

本地配置

You have two ways to configure the embedding model locally:

您有两种方法可以在本地配置 embedding 模型：

With User Tracking (TRACK_USER_USAGE=true):

Set TRACK_USER_USAGE to true in your backend .env file.

使用用户跟踪 (TRACK_USER_USAGE=true)：在您的后端 .env 文件中将 TRACK_USER_USAGE 设置为 true。

Provide your token tracking database credentials (TOKEN_TRACKER_DB_URI, TOKEN_TRACKER_DB_USERNAME, etc.).

提供您的 token 跟踪数据库凭据（TOKEN_TRACKER_DB_URI、TOKEN_TRACKER_DB_USERNAME 等）。

Select your desired embedding model from the frontend. Your selection will be saved and automatically used in subsequent sessions.

从前端选择您所需的嵌入模型（embedding model）。您的选择将被保存，并在后续会话中自动使用。

Without User Tracking (TRACK_USER_USAGE=false):

Set TRACK_USER_USAGE to false.

无用户追踪（User Tracking）（TRACK_USER_USAGE=false）：将 TRACK_USER_USAGE 设置为 false。

Specify the embedding model and provider directly in your backend .env file using EMBEDDING_MODEL and EMBEDDING_PROVIDER.

使用 EMBEDDING_MODEL 和 EMBEDDING_PROVIDER，直接在您的后端 .env 文件中指定嵌入模型和提供商（provider）。

If these variables are not set, the application defaults to a Sentence Transformer model.

如果未设置这些变量，应用程序将默认使用 Sentence Transformer 模型。

In this mode, the embedding model cannot be changed from the frontend.

在此模式下，无法从前端更改嵌入模型。

Deployment Options

部署选项（Deployment Options）

Local Deployment

本地部署（Local Deployment）

Using Docker-Compose

使用 Docker-Compose

Run the application using the default docker-compose configuration.

使用默认的 docker-compose 配置运行应用程序。

Supported LLM Models:
By default, only OpenAI and Diffbot are enabled. Gemini requires additional GCP configurations.
Use the VITE_LLM_MODELS_PROD variable to configure the models you need. Example:

VITE_LLM_MODELS_PROD="gemini_2.5_flash,openai_gpt_5_mini,diffbot,anthropic_claude_4.5_haiku"

支持的 LLM 模型：默认情况下，仅启用 OpenAI 和 Diffbot。Gemini 需要额外的 GCP 配置。使用 VITE_LLM_MODELS_PROD 变量来配置您需要的模型。例如： VITE_LLM_MODELS_PROD="gemini_2.5_flash,openai_gpt_5_mini,diffbot,anthropic_claude_4.5_haiku"

Input Sources:
By default, the following sources are enabled: local, YouTube, Wikipedia, AWS S3, and web.
To add Google Cloud Storage (GCS) integration, include gcs and your Google client ID:

VITE_REACT_APP_SOURCES="local,youtube,wiki,s3,gcs,web"
VITE_GOOGLE_CLIENT_ID="your-google-client-id"

输入源：默认情况下，启用以下源：local、YouTube、Wikipedia、AWS S3 和 web。要添加 Google Cloud Storage (GCS) 集成，请包含 gcs 和您的 Google 客户端 ID： VITE_REACT_APP_SOURCES="local,youtube,wiki,s3,gcs,web" VITE_GOOGLE_CLIENT_ID="your-google-client-id"

Chat Modes

聊天模式（Chat Modes）

Configure chat modes using the VITE_CHAT_MODES variable:

使用 VITE_CHAT_MODES 变量配置聊天模式：

By default, all modes are enabled: vector, graph_vector, graph, fulltext, graph_vector_fulltext, entity_vector, and global_vector.

默认情况下，所有模式均已启用：vector、graph_vector、graph、fulltext、graph_vector_fulltext、entity_vector 和 global_vector。

To specify specific modes, update the variable. For example:

VITE_CHAT_MODES="vector,graph"

要指定特定模式，请更新变量。例如：VITE_CHAT_MODES="vector,graph"

Running Backend and Frontend Separately

分别运行后端和前端

For development, you can run the backend and frontend independently.

对于开发，您可以独立运行后端和前端。

Frontend Setup

前端设置（Frontend Setup）

Create a .env file in the frontend folder by copying frontend/example.env.

通过复制 frontend/example.env 在前端文件夹中创建一个 .env 文件。

Update environment variables as needed.

根据需要更新环境变量。

Run:

cd frontend
  yarn
  yarn run dev

运行：cd frontend yarn yarn run dev

Backend Setup

后端设置（Backend Setup）

Create a .env file in the backend folder by copying backend/example.env.

通过复制 backend/example.env 在后端文件夹中创建一个 .env 文件。

Pre-configure user credentials in the .env file to bypass the login dialog:

NEO4J_URI=<your-neo4j-uri>
NEO4J_USERNAME=<your-username>
NEO4J_PASSWORD=<your-password>
NEO4J_DATABASE=<your-database-name>

在 .env 文件中预配置用户凭据以绕过登录对话框：NEO4J_URI=<your-neo4j-uri> NEO4J_USERNAME=<your-username> NEO4J_PASSWORD=<your-password> NEO4J_DATABASE=<your-database-name>

Run:

cd backend
  python -m venv envName
  source envName/bin/activate
  pip install -r requirements.txt
  uvicorn score:app --reload

运行：cd backend python -m venv envName source envName/bin/activate pip install -r requirements.txt uvicorn score:app --reload

Cloud Deployment

云部署（Cloud Deployment）

Deploy the application on Google Cloud Platform using the following commands:

使用以下命令在 Google Cloud Platform 上部署应用程序：

Frontend Deployment

前端部署（Frontend Deployment）

gcloud run deploy dev-frontend \
  --source . \
  --region us-central1 \
  --allow-unauthenticated

Backend Deployment

后端部署（Backend Deployment）

gcloud run deploy dev-backend \
  --set-env-vars "OPENAI_API_KEY=<your-openai-api-key>" \
  --set-env-vars "DIFFBOT_API_KEY=<your-diffbot-api-key>" \
  --set-env-vars "NEO4J_URI=<your-neo4j-uri>" \
  --set-env-vars "NEO4J_USERNAME=<your-username>" \
  --set-env-vars "NEO4J_PASSWORD=<your-password>" \
  --source . \
  --region us-central1 \
  --allow-unauthenticated

For local llms (Ollama)

对于本地 llms (Ollama)

Pull the docker image of ollama

docker pull ollama/ollama

拉取 ollama 的 docker 镜像 docker pull ollama/ollama

Run the ollama docker image

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

运行 ollama docker 镜像 docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Execute any llm model, e.g., llama3

docker exec -it ollama ollama run llama3

执行任何 llm 模型，例如 llama3 docker exec -it ollama ollama run llama3

Configure env variable in docker compose.

LLM_MODEL_CONFIG_ollama_<model_name>
# example
LLM_MODEL_CONFIG_ollama_llama3=${LLM_MODEL_CONFIG_ollama_llama3-llama3,http://host.docker.internal:11434}

在 docker compose 中配置 env 变量。LLM_MODEL_CONFIG_ollama_<model_name> # 示例 LLM_MODEL_CONFIG_ollama_llama3=${LLM_MODEL_CONFIG_ollama_llama3-llama3,http://host.docker.internal:11434}

Configure the backend API url

VITE_BACKEND_API_URL=${VITE_BACKEND_API_URL-backendurl}

配置后端 API url VITE_BACKEND_API_URL=${VITE_BACKEND_API_URL-backendurl}

Open the application in browser and select the ollama model for the extraction.

在浏览器中打开应用程序，然后选择 ollama 模型进行提取。

Enjoy Graph Building.

享受图构建的乐趣。

Usage

Connect to a Neo4j Aura Instance, which can be either AURA DS or AURA DB, by passing the URI and password through the backend environment, filling in the login dialog, or dragging and dropping the Neo4j credentials file.

通过后端环境传递 URI 和密码、填写登录对话框或拖放 Neo4j 凭据文件，连接到 Neo4j Aura 实例，它可以是 AURA DS 或 AURA DB。

To differentiate, we have added different icons. For AURA DB, there is a database icon, and for AURA DS, there is a scientific molecule icon right under the Neo4j Connection details label.

为了区分，我们添加了不同的图标。对于 AURA DB，有一个数据库图标，对于 AURA DS，在 Neo4j 连接详细信息标签下有一个科学分子图标。

Choose your source from a list of unstructured sources to create a graph.

从非结构化源列表中选择您的源以创建图。

Change the LLM (if required) from the dropdown, which will be used to generate the graph.

如果需要，从下拉列表中更改 LLM (Large Language Model)，它将用于生成图表。

Optionally, define the schema (nodes and relationship labels) in the entity graph extraction settings.

（可选）在实体图提取设置中定义模式（节点和关系标签）。

Either select multiple files to 'Generate Graph', or all the files in 'New' status will be processed for graph creation.

可以选择多个文件以“Generate Graph”（生成图表），或者将处理所有状态为“New”（新建）的文件以创建图表。

View the graph for individual files using 'View' in the grid, or select one or more files and 'Preview Graph'.

使用网格中的“View”（查看）查看单个文件的图表，或选择一个或多个文件并“Preview Graph”（预览图表）。

Ask questions related to the processed/completed sources to the chatbot. Also, get detailed information about your answers generated by the LLM.

向聊天机器人提出与已处理/完成的来源相关的问题。此外，还可以获得有关 LLM (Large Language Model) 生成的答案的详细信息。

ENV

Env Variable Name	Mandatory/Optional	Default Value	Description

BACKEND ENV
OPENAI_API_KEY	Optional		An OpenAI Key is required to use OpenAI LLM model to authenticate and track requests
DIFFBOT_API_KEY	Mandatory		API key is required to use Diffbot's NLP service to extract entities and relationships from unstructured data
BUCKET_UPLOAD_FILE	Optional		Bucket name to store uploaded file on GCS
BUCKET_FAILED_FILE	Optional		Bucket name to store failed file on GCS while extraction
NEO4J_USER_AGENT	Optional	llm-graph-builder	Name of the user agent to track Neo4j database activity
ENABLE_USER_AGENT	Optional	true	Boolean value to enable/disable Neo4j user agent
DUPLICATE_TEXT_DISTANCE	Optional	5	This value is used to find distance for all node pairs in the graph and is calculated based on node properties
DUPLICATE_SCORE_VALUE	Optional	0.97	Node score value to match duplicate nodes
EFFECTIVE_SEARCH_RATIO	Optional	1	Ratio used for effective search calculations
GRAPH_CLEANUP_MODEL	Optional	openai_gpt_5_mini	Model name to clean up graph in post processing
MAX_TOKEN_CHUNK_SIZE	Optional	10000	Maximum token size to process file content
YOUTUBE_TRANSCRIPT_PROXY	Mandatory		Proxy key to process YouTube videos for getting transcripts
IS_EMBEDDING	Optional	true	Flag to enable text embedding
KNN_MIN_SCORE	Optional	0.8	Minimum score for KNN algorithm
GCP_LOG_METRICS_ENABLED	Optional	False	Flag to enable Google Cloud logs
NEO4J_URI	Optional	neo4j://database:7687	URI for Neo4j database
NEO4J_USERNAME	Optional	neo4j	Username for Neo4j database
NEO4J_PASSWORD	Optional	password	Password for Neo4j database
GCS_FILE_CACHE	Optional	False	If set to True, will save files to process into GCS. If False, will save files locally
ENTITY_EMBEDDING	Optional	False	If set to True, it will add embeddings for each entity in the database
LLM_MODEL_CONFIG_ollama_	Optional		Set ollama config as model_name,model_local_url for local deployments

FRONTEND ENV
VITE_BLOOM_URL	Mandatory	Bloom URL	URL for Bloom visualization
VITE_REACT_APP_SOURCES	Mandatory	local,youtube,wiki,s3	List of input sources that will be available
VITE_CHAT_MODES	Mandatory	vector,graph+vector,graph,hybrid	Chat modes available for Q&A
VITE_ENV	Mandatory	DEV or PROD	Environment variable for the app
VITE_LLM_MODELS	Optional	openai_gpt_5_mini,gemini_2.5_flash,anthropic_claude_4.5_haiku	Supported models for the application
VITE_BACKEND_API_URL	Optional	localhost	URL for backend API
VITE_TIME_PER_PAGE	Optional	50	Time per page for processing
VITE_CHUNK_SIZE	Optional	5242880	Size of each chunk of file for upload
VITE_GOOGLE_CLIENT_ID	Optional		Client ID for Google authentication
VITE_LLM_MODELS_PROD	Optional	openai_gpt_5_mini,gemini_2.5_flash,anthropic_claude_4.5_haiku	To distinguish models based on environment (PROD or DEV)
VITE_AUTH0_CLIENT_ID	Mandatory if you are enabling Authentication otherwise it is optional		Okta OAuth Client ID for authentication
VITE_AUTH0_DOMAIN	Mandatory if you are enabling Authentication otherwise it is optional		Okta OAuth Client Domain
VITE_SKIP_AUTH	Optional	true	Flag to skip authentication
VITE_CHUNK_OVERLAP	Optional	20	Variable to configure chunk overlap
VITE_TOKENS_PER_CHUNK	Optional	100	Variable to configure tokens count per chunk. This gives flexibility for users who may require different chunk sizes for various tokenization tasks
VITE_CHUNK_TO_COMBINE	Optional	1	Variable to configure number of chunks to combine for parallel processing

Example Environment Files

示例环境变量文件

Refer to the example environment files for additional variables and configuration:

有关其他变量和配置，请参阅示例环境变量文件：

Backend example.env

后端 example.env

Frontend example.env

前端 example.env

Cloud Build Deployment

Cloud Build 部署

You can deploy the backend and the frontend to Google Cloud Run using Cloud Build, either manually or via automated triggers.

您可以使用 Cloud Build 将后端和前端部署到 Google Cloud Run，可以通过手动或通过自动触发器。

Automated Deployment (Recommended)

自动部署（推荐）

Connect your repository to Google Cloud Build:

In the Google Cloud Console, go to Cloud Build > Triggers.

将您的存储库连接到 Google Cloud Build：在 Google Cloud Console 中，转到 Cloud Build > Triggers（触发器）。

Create a new trigger and select your repository.

创建一个新的触发器并选择您的存储库。

Set the trigger to run on push to your desired branch (main, staging, or dev).

设置触发器以在推送到您所需的分支（main、staging 或 dev）时运行。

Cloud Build will automatically use the cloudbuild.yaml file in the root of your repository.

Cloud Build 将自动使用您存储库根目录中的 cloudbuild.yaml 文件。

Configure Substitutions and Secrets:

In the trigger settings, add required substitutions (e.g., _OPENAI_API_KEY, _DIFFBOT_API_KEY, etc.) as environment variables or use Secret Manager for sensitive data.

配置替换和密钥：在触发器设置中，添加所需替换（例如，_OPENAI_API_KEY、_DIFFBOT_API_KEY 等）作为环境变量，或者使用 Secret Manager 管理敏感数据。

Push your code:

When you push to the configured branch, Cloud Build will build and deploy your backend (and optionally frontend) to Cloud Run using the steps defined in cloudbuild.yaml.

推送您的代码：当您推送到配置的分支时，Cloud Build 将构建您的后端（以及可选的前端），并使用 cloudbuild.yaml 中定义的步骤将其部署到 Cloud Run。

Manual Deployment

手动部署

Set up Google Cloud SDK and authenticate:

gcloud auth login
gcloud config set project <YOUR_PROJECT_ID>

设置 Google Cloud SDK 并进行身份验证： gcloud auth login gcloud config set project <YOUR_PROJECT_ID>

Run Cloud Build manually:

gcloud builds submit --config cloudbuild.yaml \
  --substitutions=_REGION=us-central1,_REPO=cloud-run-repo,_OPENAI_API_KEY=<your-openai-key>,_DIFFBOT_API_KEY=<your-diffbot-key>,_BUCKET_UPLOAD_FILE=<your-bucket>,_BUCKET_FAILED_FILE=<your-bucket>,_PROJECT_ID=<your-project-id>,_GCS_FILE_CACHE=False,_TRACK_USER_USAGE=False,_TOKEN_TRACKER_DB_URI=...,_TOKEN_TRACKER_DB_USERNAME=...,_TOKEN_TRACKER_DB_PASSWORD=...,_TOKEN_TRACKER_DB_DATABASE=...,_DEFAULT_DIFFBOT_CHAT_MODEL=...,_YOUTUBE_TRANSCRIPT_PROXY=...,_EMBEDDING_MODEL=...,
  _EMBEDDING_PROVIDER=...,_BEDROCK_EMBEDDING_MODEL_KEY=...,_LLM_MODEL_CONFIG_OPENAI_GPT_5_2=...,_LLM_MODEL_CONFIG_OPENAI_GPT_5_MINI=...,_LLM_MODEL_CONFIG_GEMINI_2_5_FLASH=...,_LLM_MODEL_CONFIG_GEMINI_2_5_PRO=...,_LLM_MODEL_CONFIG_DIFFBOT=...,_LLM_MODEL_CONFIG_GROQ_LLAMA3_1_8B=...,_LLM_MODEL_CONFIG_ANTHROPIC_CLAUDE_4_5_SONNET=...,_LLM_MODEL_CONFIG_ANTHROPIC_CLAUDE_4_5_HAIKU=...,_LLM_MODEL_CONFIG_LLAMA4_MAVERICK=...,_LLM_MODEL_CONFIG_FIREWORKS_QWEN3_30B=...,_LLM_MODEL_CONFIG_FIREWORKS_GPT_OSS=...,_LLM_MODEL_CONFIG_FIREWORKS_DEEPSEEK_V3=...,_LLM_MODEL_CONFIG_BEDROCK_NOVA_MICRO_V1=...,_LLM_MODEL_CONFIG_BEDROCK_NOVA_LITE_V1=...,_LLM_MODEL_CONFIG_BEDROCK_NOVA_PRO_V1=...,_LLM_MODEL_CONFIG_OLLAMA_LLAMA3=...

Replace the values in angle brackets with your actual configuration and secrets.

手动运行 Cloud Build： gcloud builds submit --config cloudbuild.yaml \ --substitutions=_REGION=us-central1,_REPO=cloud-run-repo,_OPENAI_API_KEY=<your-openai-key>,_DIFFBOT_API_KEY=<your-diffbot-key>,_BUCKET_UPLOAD_FILE=<your-bucket>,_BUCKET_FAILED_FILE=<your-bucket>,_PROJECT_ID=<your-project-id>,_GCS_FILE_CACHE=False,_TRACK_USER_USAGE=False,_TOKEN_TRACKER_DB_URI=...,_TOKEN_TRACKER_DB_USERNAME=...,_TOKEN_TRACKER_DB_PASSWORD=...,_TOKEN_TRACKER_DB_DATABASE=...,_DEFAULT_DIFFBOT_CHAT_MODEL=...,_YOUTUBE_TRANSCRIPT_PROXY=...,_EMBEDDING_MODEL=..., _EMBEDDING_PROVIDER=...,_BEDROCK_EMBEDDING_MODEL_KEY=...,_LLM_MODEL_CONFIG_OPENAI_GPT_5_2=...,_LLM_MODEL_CONFIG_OPENAI_GPT_5_MINI=...,_LLM_MODEL_CONFIG_GEMINI_2_5_FLASH=...,_LLM_MODEL_CONFIG_GEMINI_2_5_PRO=...,_LLM_MODEL_CONFIG_DIFFBOT=...,_LLM_MODEL_CONFIG_GROQ_LLAMA3_1_8B=...,_LLM_MODEL_CONFIG_ANTHROPIC_CLAUDE_4_5_SONNET=...,_LLM_MODEL_CONFIG_ANTHROPIC_CLAUDE_4_5_HAIKU=...,_LLM_MODEL_CONFIG_LLAMA4_MAVERICK=...,_LLM_MODEL_CONFIG_FIREWORKS_QWEN3_30B=...,_LLM_MODEL_CONFIG_FIREWORKS_GPT_OSS=...,_LLM_MODEL_CONFIG_FIREWORKS_DEEPSEEK_V3=...,_LLM_MODEL_CONFIG_BEDROCK_NOVA_MICRO_V1=...,_LLM_MODEL_CONFIG_BEDROCK_NOVA_LITE_V1=...,_LLM_MODEL_CONFIG_BEDROCK_NOVA_PRO_V1=...,_LLM_MODEL_CONFIG_OLLAMA_LLAMA3=... 将尖括号中的值替换为您实际的配置和密钥。

You can omit or add substitutions as needed for your deployment.

您可以根据部署的需要省略或添加替换。

Monitor the build:

The build and deployment process will be visible in the Cloud Build console.

监控构建：构建和部署过程将在 Cloud Build 控制台中可见。

Access your deployed service:

After deployment, your backend will be available at the Cloud Run service URL shown in the Cloud Console.

访问您部署的服务：部署后，您的后端将在 Cloud Console 中显示的 Cloud Run 服务 URL 上可用。

Note:

The cloudbuild.yaml file supports multiple environments (main, staging, dev) based on the branch name.

cloudbuild.yaml 文件支持基于分支名称的多个环境（main、staging、dev）。

The frontend build and deployment steps are commented out by default. Uncomment them in cloudbuild.yaml if you wish to deploy the frontend as well.

默认情况下，前端构建和部署步骤已注释掉。如果您也希望部署前端，请在 cloudbuild.yaml 中取消注释它们。

For more details, see the comments in cloudbuild.yaml.

有关更多详细信息，请参阅 cloudbuild.yaml 中的注释。

Links

LLM Knowledge Graph Builder Application

LLM (Large Language Model) 知识图构建器应用程序

Neo4j Workspace

Neo4j 工作区

Reference

Contact

联系方式

For any inquiries or support, feel free to raise GitHub Issues

如有任何疑问或需要支持，请随时提出 GitHub Issues。

Happy Graph Building!

祝您图表构建愉快！

深度加工（NotebookLM 生成）

基于本文内容生成的 PPT 大纲、博客摘要、短视频脚本与 Deep Dive 播客，用于多场景复用

PPT 大纲（5-8 张幻灯片）点击展开

Neo4j LLM Graph Builder: Full-Stack Knowledge Graph from Documents — ppt

这是一份基于您提供的参考资料生成的 PPT 大纲，共包含 6 张幻灯片，严格按照您的要求使用 Markdown 格式和 3-5 个要点进行整理：

幻灯片 1：Neo4j LLM Graph Builder 简介

核心定义：它是一款全栈应用程序，利用大语言模型 (LLM) 和 LangChain 框架，将非结构化数据转化为存储在 Neo4j 中的结构化知识图谱 [1]。
多数据源支持：支持从本地机器、YouTube 视频、维基百科、网页以及云存储（AWS S3、Google Cloud Storage）上传并处理 PDF、TXT 等多种文件 [1-3]。
自动提取与构建：能够无缝提取数据中的实体节点、关联关系及其属性，支持用户使用自定义 Schema 或配置的现有 Schema 生成图谱 [1]。
核心价值（与数据对话）：提供专门的聊天交互界面，用户可以通过对话式查询与数据库互动，并能够获取问题回答的来源元数据 [1, 4]。

幻灯片 2：模型支持与资源管理

广泛的 LLM 支持：集成了 OpenAI、Gemini、Anthropic、Diffbot、Amazon Bedrock 以及 Deepseek 等多种云端大语言模型 [2, 4]。
本地模型兼容：支持通过 Ollama 部署和执行本地模型（如 Llama3），实现离线的实体提取和图谱构建 [5, 6]。
多维度的嵌入模型选取：支持 OpenAI、Gemini、Amazon Titan 和 Sentence Transformers，用户可以在前端界面灵活切换 [4, 7]。
Token 使用监控追踪：开启追踪环境变量后，可轻松监控每位用户的日度和月度 Token 消耗及额度限制，帮助有效管理成本避免超支 [4]。

幻灯片 3：丰富的问答与检索模式

多模式对话配置：系统支持通过环境变量自定义聊天模式，包括向量检索 (vector)、图检索 (graph)、全文检索 (fulltext) 及其多种混合模式 (hybrid) [3, 8]。
精细化分块策略：系统允许通过环境变量高度自定义处理过程，例如设置 Token 分块大小、分块重叠数以及并发处理的分块数量 [9]。
图谱节点清洗去重：内置了节点匹配与去重机制，通过设定距离计算参数和重复匹配分数阈值，并利用指定模型进行后处理来优化图谱质量 [10, 11]。
独立聊天应用接口：除了内嵌交互，还可通过 /chat-only 路由使用独立的聊天界面，专注问答体验 [4]。

幻灯片 4：可视化呈现与操作体验

强大的图谱可视化：深度集成 Neo4j Bloom，允许用户在前端同时查看和分析特定数据源或多个来源联合的图谱结构 [1, 8]。
快捷的数据库接入：可通过填入 URI、在环境配置中直接写入，或是直接拖拽配置文件的方式，快速连接到 Neo4j Aura DB 或 DS 实例 [6, 11]。
可视化操作状态反馈：内置状态网格，用户不仅可以“生成图谱”，还可以针对个别或多个处于已处理/完成状态的文件进行“预览图谱”操作 [6, 10]。
前端个性化记忆功能：在开启用户追踪的模式下，前端所选择的嵌入模型将自动保存到用户档案中，并自动应用于后续会话 [7]。

幻灯片 5：灵活多样的部署方案

本地极速部署：提供默认的 Docker-Compose 配置方案，极大简化了整体应用的本地容器化部署流程 [2]。
前后端分离开发：开发者可以独立运行前端 (基于 Vite/Yarn) 和后端 (基于 Python 虚拟环境和 Uvicorn)，方便进行代码调试 [3, 5]。
谷歌云 (GCP) 快速上线：支持利用 gcloud run deploy 命令行指令，将前后端快速部署到 Google Cloud 的 Cloud Run 服务中 [5]。
CI/CD 自动化构建：推荐连接 Google Cloud Build 设置触发器，实现代码推送到指定分支后，基于 cloudbuild.yaml 自动构建部署 [9, 12]。

幻灯片 6：系统配置与环境变量控制

后端核心认证集成：通过后端 .env 文件必须配置如 DIFFBOT_API_KEY、Neo4j 数据库连接凭据及相关云服务的 API Key [3, 10, 11]。
前端功能开关控制：前端环境变量控制着界面的核心功能，如通过 VITE_REACT_APP_SOURCES 决定开启哪些输入源，VITE_CHAT_MODES 控制可选的问答模式 [8]。
灵活的安全与授权机制：如果需要身份验证，可强制配置 Auth0/Okta 的 OAuth 客户端和域名；开发环境下也可配置跳过验证 [8, 9]。
云端机密管理：在自动化云部署流程中，诸如 API 密钥等敏感信息可以通过替换变量 (Substitutions) 或利用 Secret Manager 安全传入系统中 [12]。

博客摘要 + 核心看点点击展开

Neo4j LLM Graph Builder: Full-Stack Knowledge Graph from Documents — summary

SEO 友好博客摘要

想要将PDF、网页或YouTube视频等非结构化数据转化为强大的知识图谱吗？Neo4j LLM Graph Builder 结合了先进的大语言模型（LLMs）与 LangChain 框架，为您提供高效的全栈解决方案[1]。本文深入解析了该应用的核心功能，包括自定义 Schema、Neo4j Bloom 直观可视化以及与数据库对话的智能问答体验[1]。无论您是选择通过 Docker 进行本地环境搭建，还是在 Google Cloud Platform 上进行云端部署[2, 3]，都能轻松配置 OpenAI、Gemini、Ollama 等多种顶级大模型和嵌入模型[3, 4]。了解如何利用此工具打破数据孤岛，轻松构建和管理专属知识图谱，全面提升数据检索与分析效率！

核心看点