6、检索增强生成（RAG）

Ollama 应用实践：基于 Ollama + LangChain4j 的 RAG 实现

LangChain4j 提供了一个可以让我们快速了解RAG 实现过程的

简易

LangChain4j 具有“Easy RAG”功能，可让您尽可能轻松地开始使用 RAG。您无需了解嵌入、选择向量存储、找到正确的嵌入模型、弄清楚如何解析和拆分文档等。只需指向您的文档，LangChain4j 就会发挥其魔力。

如果您需要可定制的 RAG，请跳至下一部分。

1、导入langchain4j-easy-rag依赖项：

<dependency>
    <groupId>dev.langchain4j</groupId>
    <artifactId>langchain4j-easy-rag</artifactId>
    <version>0.33.0</version>
</dependency>

2、让我们加载您的文档：

List<Document> documents = FileSystemDocumentLoader.loadDocuments("/home/langchain4j/documentation");

3、现在，我们需要预处理文档并将其存储在专门的嵌入存储（也称为矢量数据库）中。当用户提出问题时，这对于快速找到相关信息是必要的。我们可以使用我们支持的 15 多个嵌入存储中的任何一个，但为了简单起见，我们将使用内存中的嵌入存储：

InMemoryEmbeddingStore<TextSegment> embeddingStore = new InMemoryEmbeddingStore<>();
EmbeddingStoreIngestor.ingest(documents, embeddingStore);

4、最后一步是创建一个AI 服务，它将作为我们的 LLM API：

interface Assistant {

    String chat(String userMessage);
}

Assistant assistant = AiServices.builder(Assistant.class)
    .chatLanguageModel(OpenAiChatModel.withApiKey(OPENAI_API_KEY))
    .chatMemory(MessageWindowChatMemory.withMaxMessages(10))
    .contentRetriever(EmbeddingStoreContentRetriever.from(embeddingStore))
    .build();

在这里，我们配置Assistant使用 OpenAI LLM 来回答用户问题，记住对话中最新的 10 条消息，并从EmbeddingStore包含我们文档的中检索相关内容。

5、现在我们就可以与它聊天了！

String answer = assistant.chat("How to do Easy RAG with LangChain4j?");

访问

如果您希望访问源（Content用于扩充消息的检索），您可以通过在Result类中包装返回类型轻松地实现此目的：

interface Assistant {

    Result<String> chat(String userMessage);
}

Result<String> result = assistant.chat("How to do Easy RAG with LangChain4j?");

String answer = result.content();
List<Content> sources = result.sources();

RAG 阶段

LangChain4j 提供了一组丰富的 API，让您可以轻松构建自定义 RAG 管道，从简单到高级。在本节中，我们将介绍主要的领域类和 API。

类Document代表整个文档，例如单个 PDF 文件或网页。目前，它Document只能表示文本信息，但未来的更新将使其能够支持图像和表格。

有用的方法

Document.text()返回文本Document
Document.metadata()返回Metadata的Document（见下文）
Document.toTextSegment()将其转换Document为TextSegment（见下文）
Document.from(String, Metadata)创建一个Document来自文本并Metadata
Document.from(String)创建Document带有空文本的Metadata

每个都Document包含Metadata。它存储有关的元信息Document，例如其名称、来源、上次更新日期、所有者或任何其他相关详细信息。

Metadata以键值对的形式存储，其中键为类型，String值可以是以下类型之一：String，Integer，Long，Float，Double。

Metadata 很有用，原因如下：

Document 在向 LLM 提交提示时，还可以添加元数据条目，为 LLM 提供需要考虑的其他信息。例如，提供Document名称和来源可以帮助 LLM 更好地理解内容。
在搜索要包含在提示中的相关内容时，可以按Metadata条目进行过滤。例如，您可以将语义搜索范围缩小到仅Document属于特定所有者的条目。
当的来源Document更新时（例如，文档的特定页面），可以Document通过其元数据条目（例如，“id”，“source”等）轻松找到相应的内容，并在中更新它EmbeddingStore以保持同步。

文档加载器

您可以Document从创建一个String，但更简单的方法是使用库中包含的文档加载器之一：

FileSystemDocumentLoader从langchain4j模块
UrlDocumentLoader从langchain4j模块
AmazonS3DocumentLoader从langchain4j-document-loader-amazon-s3模块
AzureBlobStorageDocumentLoader从langchain4j-document-loader-azure-storage-blob模块
GitHubDocumentLoader从langchain4j-document-loader-github模块
TencentCosDocumentLoader从langchain4j-document-loader-tencent-cos模块

文档解析器

Documents 可以表示各种格式的文件，例如 PDF、DOC、TXT 等。为了解析每一种格式，DocumentParser库中包含一个具有多种实现的接口：

TextDocumentParser来自langchain4j模块，可以解析纯文本格式的文件（例如TXT，HTML，MD等）
ApachePdfBoxDocumentParser来自langchain4j-document-parser-apache-pdfbox可以解析 PDF 文件的模块
ApachePoiDocumentParser来自langchain4j-document-parser-apache-poi模块，它可以解析 MS Office 文件格式（例如 DOC、DOCX、PPT、PPTX、XLS、XLSX 等）
ApacheTikaDocumentParser该langchain4j-document-parser-apache-tika模块可以自动检测和解析几乎所有现有的文件格式

Document下面是如何从文件系统加载一个或多个的示例：

// Load a single document
Document document = FileSystemDocumentLoader.loadDocument("/home/langchain4j/file.txt", new TextDocumentParser());

// Load all documents from a directory
List<Document> documents = FileSystemDocumentLoader.loadDocuments("/home/langchain4j", new TextDocumentParser());

// Load all *.txt documents from a directory
PathMatcher pathMatcher = FileSystems.getDefault().getPathMatcher("glob:*.txt");
List<Document> documents = FileSystemDocumentLoader.loadDocuments("/home/langchain4j", pathMatcher, new TextDocumentParser());

// Load all documents from a directory and its subdirectories
List<Document> documents = FileSystemDocumentLoader.loadDocumentsRecursively("/home/langchain4j", new TextDocumentParser());

您也可以加载文档而不明确指定DocumentParser。在这种情况下，DocumentParser将使用默认值。默认值是通过 SPI 加载的（例如来自langchain4j-document-parser-apache-tika或langchain4j-easy-rag）。如果DocumentParser通过 SPI 未找到，TextDocumentParser则将使用 a 作为后备。

文档转换器

DocumentTransformer实现可以执行各种文档转换，例如：

清理：这涉及从Document文本中删除不必要的噪音，这可以节省标记并减少干扰。
Document过滤：从搜索中完全排除特定的内容。
丰富：可以添加附加信息Document以潜在地增强搜索结果。
总结：Document可以进行总结，并且它的简短摘要可以存储在中，Metadata 以便稍后包含在每个中TextSegment（我们将在下面介绍），以潜在地改进搜索。
ETC。
Metadata在此阶段还可以添加、修改或删除条目。

目前，唯一现成提供的实现是HtmlTextExtractor在langchain4j模块中，它可以从原始 HTML 中提取所需的文本内容和元数据条目。

由于没有一刀切的解决方案，我们建议您DocumentTransformer根据自己的独特数据量身定制解决方案。

文本片段

一旦Document加载了，就该将它们拆分（分块）成更小的段（块）。 LangChain4j 的域模型包括一个TextSegment表示的片段的类Document。顾名思义，TextSegment只能表示文本信息。

分裂还是不分裂？

出于多种原因，您可能只想在提示中包含几个相关段而不是整个知识库：

LLM 的上下文窗口有限，因此整个知识库可能不适合
你在提示中提供的信息越多，LLM 处理和回复所需的时间就越长
提示中提供的信息越多，支付的费用就越高
提示中的不相关信息可能会分散法学硕士的注意力，并增加出现幻觉的可能性
提示中提供的信息越多，LLM 的回复基于哪些信息就越难解释
我们可以通过将知识库拆分成更小、更易于理解的部分来解决这些问题。这些部分应该有多大？这是一个好问题。一如既往，这取决于具体情况。

目前有两种广泛使用的方法：

1、每个文档（例如 PDF 文件、网页等）都是原子且不可分割的。在 RAG 管道中进行检索时，将检索 N 个最相关的文档并将其注入提示中。在这种情况下，您很可能需要使用长上下文 LLM，因为文档可能很长。如果检索完整文档很重要，例如当您不能错过某些细节时，这种方法是合适的。

优点：没有丢失任何背景信息。
缺点：
- 消耗了更多代币。
- 有时，文档可能包含多个部分/主题，但并非所有部分/主题都与查询相关。
- 由于各种大小的完整文档被压缩成单个固定长度的向量，因此向量搜索质量会受到影响。
  2、文档被分成更小的片段，例如章节、段落，有时甚至是句子。在 RAG 管道中进行检索时，会检索 N 个最相关的片段并将其注入提示中。挑战在于确保每个片段都提供足够的上下文/信息，以便 LLM 理解它。缺少上下文可能会导致 LLM 误解给定的片段并产生幻觉。一种常见的策略是将文档分成重叠的片段，但这并不能完全解决问题。几种高级技术可以提供帮助，例如“句子窗口检索”、“自动合并检索”和“父文档检索”。我们不会在这里详细介绍，但本质上，这些方法有助于获取检索到的片段周围的更多上下文，为 LLM 提供检索到的片段之前和之后的附加信息。
优点：
- 更好的矢量搜索质量。
- 减少代币消耗。
缺点：某些上下文可能仍然会丢失。

有用的方法
TextSegment.text()返回文本TextSegment
TextSegment.metadata()返回Metadata的TextSegment
TextSegment.from(String, Metadata)创建一个TextSegment来自文本并Metadata
TextSegment.from(String)创建TextSegment带有空文本的Metadata

简易 RAG
天真的 RAG
具有查询压缩功能的高级 RAG
具有查询路由的高级 RAG
具有重新排序功能的高级 RAG
包含元数据的高级 RAG
具有元数据过滤功能的高级 RAG
配备多只猎犬的高级 RAG
具有 Web 搜索功能的高级 RAG
带有 SQL 数据库的高级 RAG
跳过检索
RAG +工具
加载文档

作者：Jeebiz 创建时间：2024-08-18 13:11
最后编辑：Jeebiz 更新时间：2024-08-18 23:45