ETL Pipeline
提取、转换 和 加载 (ETL) 框架充当检索增强生成 (RAG) 用例中数据处理的支柱。
ETL 管道协调从原始数据源到结构化向量存储的流,确保数据采用最佳格式供 AI 模型检索。
RAG 用例是文本,通过从数据体中检索相关信息来增强生成模型的功能,从而提高生成输出的质量和相关性。
API 概述
ETL Pipeline 由三个主要组件组成:
- DocumentReader 实现 Supplier<List<Document>>
- DocumentTransformer 实现 Function<List<Document>, List<Document>>
- DocumentWriter 实现 Consumer<List<Document>>
该类Document包含文本和元数据,是通过 .PDF、文本文件和其他文档类型创建的DocumentReader。
要构建简单的 ETL 管道,您可以将每种类型的实例链接在一起。
假设我们有这三种 ETL 类型的以下实例
- PagePdfDocumentReader 是 DocumentReader 的实现
- TokenTextSplitter 是 DocumentTransformer 的实现
- VectorStore 是 DocumentWriter 的实现
要执行将数据基本加载到矢量数据库以与检索增强生成模式一起使用的操作,请使用以下代码。
vectorStore.accept(tokenTextSplitter.apply(pdfReader.get()));
入门
要开始创建 Spring AI RAG 应用程序,请执行以下步骤:
下载最新的Spring CLI 版本 并按照安装说明进行操作。
要创建一个简单的基于 OpenAI 的应用程序,请使用以下命令:
spring boot new --from ai-rag --name myrag
- 请查阅生成的README.md文件,获取有关获取 OpenAI API 密钥和运行第一个 AI RAG 应用程序的指导。
ETL接口和实现
ETL Pipeline 由以下接口和实现组成。详细的 ETL 类图显示在ETL 类图部分。
DocumentReader
提供来自不同来源的文档来源。
public interface DocumentReader extends Supplier<List<Document>> {
}
JsonReader
JsonReader 解析 JSON 格式的文档。
例子:
@Component
public class MyAiApp {
@Value("classpath:bikes.json") // This is the json document to load
private Resource resource;
List<Document> loadJsonAsDocuments() {
JsonReader jsonReader = new JsonReader(resource, "description");
return jsonReader.get();
}
}
TextReader
TextReader 处理纯文本文档。
例子:
@Component
public class MyTextReader {
@Value("classpath:text-source.txt") // This is the text document to load
private Resource resource;
List<Document> loadText() {
TextReader textReader = new TextReader(resource);
textReader.getCustomMetadata().put("filename", "text-source.txt");
return textReader.get();
}
}
PagePdfDocumentReader
PagePdfDocumentReader 使用 Apache PdfBox 库来解析 PDF 文档
例子:
@Component
public class MyPagePdfDocumentReader {
List<Document> getDocsFromPdf() {
PagePdfDocumentReader pdfReader = new PagePdfDocumentReader("classpath:/sample1.pdf",
PdfDocumentReaderConfig.builder()
.withPageTopMargin(0)
.withPageExtractedTextFormatter(ExtractedTextFormatter.builder()
.withNumberOfTopTextLinesToDelete(0)
.build())
.withPagesPerDocument(1)
.build());
return pdfReader.get();
}
}
ParagraphPdfDocumentReader
ParagraphPdfDocumentReader 使用 PDF catalog (例如:TOC)信息将输入 PDF 拆分为文本段落,并按段落输出一个文本段落。
注意:并非所有 PDF 文档都包含 PDF catalog。
例子:
@Component
public class MyPagePdfDocumentReader {
List<Document> getDocsFromPdfwithCatalog() {
new ParagraphPdfDocumentReader("classpath:/sample1.pdf",
PdfDocumentReaderConfig.builder()
.withPageTopMargin(0)
.withPageExtractedTextFormatter(ExtractedTextFormatter.builder()
.withNumberOfTopTextLinesToDelete(0)
.build())
.withPagesPerDocument(1)
.build());
return pdfReader.get();
}
}
TikaDocumentReader
TikaDocumentReader 使用 Apache Tika 从各种文档格式(例如 PDF、DOC/DOCX、PPT/PPTX 和 HTML)中提取文本。有关受支持格式的完整列表,请参阅 Tika 文档。
例子:
@Component
public class MyTikaDocumentReader {
@Value("classpath:/word-sample.docx") // This is the word document to load
private Resource resource;
List<Document> loadText() {
TikaDocumentReader tikaDocumentReader = new TikaDocumentReader(resourceUri);
return tikaDocumentReader.get();
}
}
DocumentTransformer
作为处理工作流程的一部分,转换一批文档。
public interface DocumentTransformer extends Function<List<Document>, List<Document>> {
}
TextSplitter
一个 TextSplitter 抽象基类,有助于划分文档以适应 AI 模型的上下文窗口。
TokenTextSplitter
分割文档,同时保留令牌级别的完整性。
ContentFormatTransformer
确保所有文档的内容格式统一。
KeywordMetadataEnricher
使用必要的关键字元数据来增强文档。
SummaryMetadataEnricher
使用摘要元数据丰富文档以增强检索。
DocumentWriter
管理 ETL 流程的最后阶段,准备存储文档。
public interface DocumentWriter extends Consumer<List<Document>> {
}
FileDocumentWriter
将文档保存到文件中。
VectorStore
提供与各种矢量存储的集成。有关完整列表,请参阅 Vector DB 文档。
ETL类图
以下类图说明了 ETL 接口和实现。
最后编辑:Jeebiz 更新时间:2024-07-06 19:00