默认配置模式(使用环境变量)
文本嵌入定制
默认情况下,GraphRAG 索引器将仅发出查询方法所需的嵌入。但是,该模型为所有纯文本字段定义了嵌入,可以通过将GRAPHRAG_EMBEDDING_TARGET环境变量设置为 来生成这些嵌入all。
如果嵌入目标是all,并且您只想嵌入这些字段的子集,则可以使用GRAPHRAG_EMBEDDING_SKIP下面描述的参数指定要跳过哪些嵌入。
嵌入字段
text_unit.text
document.raw_content
entity.name
entity.description
relationship.description
community.title
community.summary
community.full_content
输入数据
我们的管道可以从输入文件夹提取 .csv 或 .txt 数据。这些文件可以嵌套在子文件夹中。要配置如何处理输入数据、映射到哪些字段以及如何解析时间戳,请查找以GRAPHRAG_INPUT_以下开头的配置值。一般来说,基于 CSV 的数据提供最大的可定制性。每个 CSV 至少应包含一个字段(可以使用环境变量进行映射),但如果它们还包含、和字段text会很有帮助。还可以包括其他字段,这些字段将作为额外字段出现在表中。titletimestampsourceDocument
基本法学硕士 (LLM) 设置
这些是配置 LLM 连接的主要设置。
范围 必需的? 描述 类型 默认值
GRAPHRAG_API_KEY 对于 OpenAI 是。对于 AOAI 是可选的 API 密钥。(注意:OPENAI_API_KEY 也用作后备)。如果在使用 AOAI 时未定义,则将使用托管身份。 str None
GRAPHRAG_API_BASE 对于 AOAI API 基本 URL str None
GRAPHRAG_API_VERSION 对于 AOAI AOAI API 版本。 str None
GRAPHRAG_API_ORGANIZATION AOAI 组织。 str None
GRAPHRAG_API_PROXY AOAI 代理。 str None
文本生成设置
这些设置控制管道使用的文本生成模型。任何具有后备功能的设置都将使用基本 LLM 设置(如果可用)。
范围 必需的? 描述 类型 默认值
GRAPHRAG_LLM_TYPE 对于 AOAI LLM 操作类型。openai_chat要么azure_openai_chat str openai_chat
GRAPHRAG_LLM_DEPLOYMENT_NAME 对于 AOAI AOAI 模型部署名称。 str None
GRAPHRAG_LLM_API_KEY 是(使用后备) API 密钥。如果使用 AOAI 时未定义,则将使用托管身份。 str None
GRAPHRAG_LLM_API_BASE 对于 AOAI(使用后备) API 基本 URL str None
GRAPHRAG_LLM_API_VERSION 对于 AOAI(使用后备) AOAI API 版本。 str None
GRAPHRAG_LLM_API_ORGANIZATION 对于 AOAI(使用后备) AOAI 组织。 str None
GRAPHRAG_LLM_API_PROXY AOAI 代理。 str None
GRAPHRAG_LLM_MODEL LLM 模型。 str gpt-4-turbo-preview
GRAPHRAG_LLM_MAX_TOKENS 最大 token 数量。 int 4000
GRAPHRAG_LLM_REQUEST_TIMEOUT 等待聊天客户端响应的最大秒数。 int 180
GRAPHRAG_LLM_MODEL_SUPPORTS_JSON 指示给定的模型是否支持JSON输出模式。True启用。 str None
GRAPHRAG_LLM_THREAD_COUNT 用于 LLM 并行化的线程数。 int 50
GRAPHRAG_LLM_THREAD_STAGGER 启动每个线程之间等待的时间(以秒为单位)。 float 0.3
GRAPHRAG_LLM_CONCURRENT_REQUESTS 允许嵌入客户端的并发请求数。 int 二十五
GRAPHRAG_LLM_TOKENS_PER_MINUTE 每分钟允许 LLM 客户端使用的令牌数。0 = 绕过 int 0
GRAPHRAG_LLM_REQUESTS_PER_MINUTE 每分钟允许 LLM 客户端的请求数。0 = 绕过 int 0
GRAPHRAG_LLM_MAX_RETRIES 请求失败时尝试重试的最大次数。 int 10
GRAPHRAG_LLM_MAX_RETRY_WAIT 重试之间等待的最大秒数。 int 10
GRAPHRAG_LLM_SLEEP_ON_RATE_LIMIT_RECOMMENDATION 是否在速率限制建议时休眠。(仅限 Azure) bool True
GRAPHRAG_LLM_TEMPERATURE 使用生成的温度。 float 0
GRAPHRAG_LLM_TOP_P 用于采样的top_p。 float 1
GRAPHRAG_LLM_N 要生成的响应的数量。 int 1
文本嵌入设置
这些设置控制管道使用的文本嵌入模型。任何具有后备功能的设置都将使用基本 LLM 设置(如果可用)。
范围 必需的 ? 描述 类型 默认
GRAPHRAG_EMBEDDING_TYPE 对于 AOAI 要使用的嵌入客户端openai_embedding。azure_openai_embedding str openai_embedding
GRAPHRAG_EMBEDDING_DEPLOYMENT_NAME 对于 AOAI AOAI 部署名称。 str None
GRAPHRAG_EMBEDDING_API_KEY 是(使用后备) 用于嵌入客户端的 API 密钥。如果使用 AOAI 时未定义,则将使用托管身份。 str None
GRAPHRAG_EMBEDDING_API_BASE 对于 AOAI(使用后备) API 基本 URL。 str None
GRAPHRAG_EMBEDDING_API_VERSION 对于 AOAI(使用后备) 用于嵌入客户端的 AOAI API 版本。 str None
GRAPHRAG_EMBEDDING_API_ORGANIZATION 对于 AOAI(使用后备) 用于嵌入客户端的 AOAI 组织。 str None
GRAPHRAG_EMBEDDING_API_PROXY 用于嵌入客户端的 AOAI 代理。 str None
GRAPHRAG_EMBEDDING_MODEL 用于嵌入客户端的模型。 str text-embedding-3-small
GRAPHRAG_EMBEDDING_BATCH_SIZE 一次嵌入的文本数量。(Azure 限制为 16) int 16
GRAPHRAG_EMBEDDING_BATCH_MAX_TOKENS 每批最大令牌数(Azure 限制为 8191) int 8191
GRAPHRAG_EMBEDDING_TARGET 要嵌入的目标字段。required或all。 str required
GRAPHRAG_EMBEDDING_SKIP 用于跳过嵌入的字段的逗号分隔列表。(例如“relationship.description”) str None
GRAPHRAG_EMBEDDING_THREAD_COUNT 用于嵌入并行化的线程数。 int
GRAPHRAG_EMBEDDING_THREAD_STAGGER 启动每个线程之间等待嵌入的时间(以秒为单位)。 float 50
GRAPHRAG_EMBEDDING_CONCURRENT_REQUESTS 允许嵌入客户端的并发请求数。 int 二十五
GRAPHRAG_EMBEDDING_TOKENS_PER_MINUTE 允许嵌入客户端每分钟使用的令牌数。0 = 绕过 int 0
GRAPHRAG_EMBEDDING_REQUESTS_PER_MINUTE 允许嵌入客户端每分钟的请求数。0 = 绕过 int 0
GRAPHRAG_EMBEDDING_MAX_RETRIES 请求失败时尝试重试的最大次数。 int 10
GRAPHRAG_EMBEDDING_MAX_RETRY_WAIT 重试之间等待的最大秒数。 int 10
GRAPHRAG_EMBEDDING_TARGET 要嵌入的目标字段。required或all。 str required
GRAPHRAG_EMBEDDING_SLEEP_ON_RATE_LIMIT_RECOMMENDATION 是否在速率限制建议时休眠。(仅限 Azure) bool True
输入设置
这些设置控制管道使用的数据输入。任何具有后备功能的设置都将使用基本 LLM 设置(如果可用)。
纯文本输入数据(GRAPHRAG_INPUT_FILE_TYPE=文本)
范围 描述 类型 必需或可选 默认
GRAPHRAG_INPUT_FILE_PATTERN 从输入目录读取输入文件时使用的文件模式正则表达式。 str 选修的 ..txt$
CSV 输入数据(GRAPHRAG_INPUT_FILE_TYPE=csv)
范围 描述 类型 必需或可选 默认
GRAPHRAG_INPUT_TYPE 读取文件时使用的输入存储类型。(file或blob) str 选修的 file
GRAPHRAG_INPUT_FILE_PATTERN 从输入目录读取输入文件时使用的文件模式正则表达式。 str 选修的 ..txt$
GRAPHRAG_INPUT_SOURCE_COLUMN 读取 CSV 输入文件时使用的“源”列。 str 选修的 source
GRAPHRAG_INPUT_TIMESTAMP_COLUMN 读取 CSV 输入文件时使用的“时间戳”列。 str 选修的 None
GRAPHRAG_INPUT_TIMESTAMP_FORMAT 解析时间戳列中的时间戳时使用的时间戳格式。 str 选修的 None
GRAPHRAG_INPUT_TEXT_COLUMN 读取 CSV 输入文件时使用的“文本”列。 str 选修的 text
GRAPHRAG_INPUT_DOCUMENT_ATTRIBUTE_COLUMNS 以逗号分隔的 CSV 列列表,用于合并为文档字段。 str 选修的 id
GRAPHRAG_INPUT_TITLE_COLUMN 读取 CSV 输入文件时使用的“标题”列。 str 选修的 title
GRAPHRAG_INPUT_STORAGE_ACCOUNT_BLOB_URL 在模式中使用托管标识时使用的 Azure 存储 blob 终结点blob。格式为https://
GRAPHRAG_INPUT_CONNECTION_STRING 从 Azure Blob 存储读取 CSV 输入文件时使用的连接字符串。 str 选修的 None
GRAPHRAG_INPUT_CONTAINER_NAME 从 Azure Blob 存储读取 CSV 输入文件时使用的容器名称。 str 选修的 None
GRAPHRAG_INPUT_BASE_DIR 读取输入文件的基本目录。 str 选修的 None
数据映射设置
范围 描述 类型 必需或可选 默认
GRAPHRAG_INPUT_FILE_TYPE 输入数据的类型,csv或text str 选修的 text
GRAPHRAG_INPUT_ENCODING 读取 CSV/文本输入文件时应用的编码。 str 选修的 utf-8
数据分块
范围 描述 类型 必需或可选 默认
GRAPHRAG_CHUNK_SIZE 文本块分析窗口的块大小(以标记为单位)。 str 选修的 1200
GRAPHRAG_CHUNK_OVERLAP 文本块分析窗口的标记中的块重叠。 str 选修的 100
GRAPHRAG_CHUNK_BY_COLUMNS 执行 TextUnit 分块时要分组的文档属性的逗号分隔列表。 str 选修的 id
GRAPHRAG_CHUNK_ENCODING_MODEL 用于分块的编码模型。 str 选修的 顶层编码模型。
提示覆盖
范围 描述 类型 必需或可选 默认
GRAPHRAG_ENTITY_EXTRACTION_PROMPT_FILE 实体提取提示模板文本文件的路径(相对于根目录)。 str 选修的 None
GRAPHRAG_ENTITY_EXTRACTION_MAX_GLEANINGS 在循环中提取实体时调用的最大重新驱动(收集)次数。 int 选修的 1
GRAPHRAG_ENTITY_EXTRACTION_ENTITY_TYPES 要提取的实体类型的逗号分隔列表。 str 选修的 organization,person,event,geo
GRAPHRAG_ENTITY_EXTRACTION_ENCODING_MODEL 用于实体提取的编码模型。 str 选修的 顶层编码模型。
GRAPHRAG_SUMMARIZE_DESCRIPTIONS_PROMPT_FILE 描述摘要提示模板文本文件的路径(相对于根目录)。 str 选修的 None
GRAPHRAG_SUMMARIZE_DESCRIPTIONS_MAX_LENGTH 每个描述摘要生成的最大标记数。 int 选修的 500
GRAPHRAG_CLAIM_EXTRACTION_ENABLED 是否为此管道启用声明提取。 bool 选修的 False
GRAPHRAG_CLAIM_EXTRACTION_DESCRIPTION 要使用的 claim_description 提示参数。 string 选修的 “任何与威胁分析相关的主张或事实。”
GRAPHRAG_CLAIM_EXTRACTION_PROMPT_FILE 索赔提取提示利用。 string 选修的 None
GRAPHRAG_CLAIM_EXTRACTION_MAX_GLEANINGS 在循环中提取声明时要调用的最大重新驱动(收集)次数。 int 选修的 1
GRAPHRAG_CLAIM_EXTRACTION_ENCODING_MODEL 用于索赔提取的编码模型。 str 选修的 顶层编码模型
GRAPHRAG_COMMUNITY_REPORTS_PROMPT_FILE 社区报告提取提示可供利用。 string 选修的 None
GRAPHRAG_COMMUNITY_REPORTS_MAX_LENGTH 每个社区报告生成的最大令牌数。 int 选修的 1500
贮存
本节控制用于发出输出表的管道所使用的存储机制。
范围 描述 类型 必需或可选 默认
GRAPHRAG_STORAGE_TYPE 要使用的报告器类型。选项包括file、memory或blob str 选修的 file
GRAPHRAG_STORAGE_STORAGE_ACCOUNT_BLOB_URL 在模式中使用托管标识时使用的 Azure 存储 blob 终结点blob。格式为https://
GRAPHRAG_STORAGE_CONNECTION_STRING 处于模式下时使用的 Azure 存储连接字符串blob。 str 选修的 没有任何
GRAPHRAG_STORAGE_CONTAINER_NAME 处于模式下时使用的 Azure 存储容器名称blob。 str 选修的 没有任何
GRAPHRAG_STORAGE_BASE_DIR 数据输出输出的基本路径。 str 选修的 没有任何
缓存
本节控制管道使用的缓存机制。这用于缓存 LLM 调用结果。
范围 描述 类型 必需或可选 默认
GRAPHRAG_CACHE_TYPE 要使用的缓存类型。选项包括file、memory或noneblob str 选修的 file
GRAPHRAG_CACHE_STORAGE_ACCOUNT_BLOB_URL 在模式中使用托管标识时使用的 Azure 存储 blob 终结点blob。格式为https://
GRAPHRAG_CACHE_CONNECTION_STRING 处于模式下时使用的 Azure 存储连接字符串blob。 str 选修的 没有任何
GRAPHRAG_CACHE_CONTAINER_NAME 处于模式下时使用的 Azure 存储容器名称blob。 str 选修的 没有任何
GRAPHRAG_CACHE_BASE_DIR 报告输出的基本路径。 str 选修的 没有任何
报告
此部分控制管道用于报告常见事件和错误消息的机制。默认是将报告写入输出目录中的文件。但是,您也可以选择将报告写入控制台或 Azure Blob 存储容器。
范围 描述 类型 必需或可选 默认
GRAPHRAG_REPORTING_TYPE 要使用的报告器类型。选项包括file、console或blob str 选修的 file
GRAPHRAG_REPORTING_STORAGE_ACCOUNT_BLOB_URL 在模式中使用托管标识时使用的 Azure 存储 blob 终结点blob。格式为https://
GRAPHRAG_REPORTING_CONNECTION_STRING 处于模式下时使用的 Azure 存储连接字符串blob。 str 选修的 没有任何
GRAPHRAG_REPORTING_CONTAINER_NAME 处于模式下时使用的 Azure 存储容器名称blob。 str 选修的 没有任何
GRAPHRAG_REPORTING_BASE_DIR 报告输出的基本路径。 str 选修的 没有任何
Node2Vec 参数
范围 描述 类型 必需或可选 默认
GRAPHRAG_NODE2VEC_ENABLED 是否启用Node2Vec bool 选修的 错误的
GRAPHRAG_NODE2VEC_NUM_WALKS 要执行的 Node2Vec 步行次数 int 选修的 10
GRAPHRAG_NODE2VEC_WALK_LENGTH Node2Vec 步行长度 int 选修的 40
GRAPHRAG_NODE2VEC_WINDOW_SIZE Node2Vec 窗口大小 int 选修的 2
GRAPHRAG_NODE2VEC_ITERATIONS 运行 node2vec 的迭代次数 int 选修的 3
GRAPHRAG_NODE2VEC_RANDOM_SEED 用于 node2vec 的随机种子 int 选修的 597832
数据快照
范围 描述 类型 必需或可选 默认
GRAPHRAG_SNAPSHOT_GRAPHML 是否启用 GraphML 快照。 bool 选修的 错误的
GRAPHRAG_SNAPSHOT_RAW_ENTITIES 是否启用原始实体快照。 bool 选修的 错误的
GRAPHRAG_SNAPSHOT_TOP_LEVEL_NODES 是否启用顶层节点快照。 bool 选修的 错误的
其他设置
范围 描述 类型 必需或可选 默认
GRAPHRAG_ASYNC_MODE 使用哪种异步模式。 要么 ,asyncio要么threaded。 str 选修的 asyncio
GRAPHRAG_ENCODING_MODEL tiktoken中使用的文本编码模型,对文本进行编码。 str 选修的 cl100k_base
GRAPHRAG_MAX_CLUSTER_SIZE 单个莱顿集群中包含的最大实体数量。 int 选修的 10
GRAPHRAG_SKIP_WORKFLOWS 要跳过的工作流名称的逗号分隔列表。 str 选修的 None
GRAPHRAG_UMAP_ENABLED 是否启用 UMAP 布局 bool 选修的 错误的
最后编辑:Jeebiz 更新时间:2024-08-08 14:28