文档转换器(Document Transformers)

文档转换器 描述
AI21SemanticTextSplitter 本示例概述了如何在 LangChain 中使用 AI21SemanticTextSplitter。
Beautiful Soup Beautiful Soup 是一个 Python 解析包
Cross Encoder Reranker 本笔记本展示了如何使用自己的交叉编码器在检索器中实现 Reranker,这些编码器来自 Hugging Face 交叉编码器模型或实现交叉编码器功能的 Hugging Face 模型。
DashScope Reranker 本笔记本演示了如何使用 DashScope Reranker 进行文档压缩和检索。DashScope 是阿里巴巴云的生成式 AI 服务。
Doctran: extract properties 我们可以使用 Doctran 库提取文档的有用特征,Doctran 库使用 OpenAI 的函数调用特征来提取特定的元数据。
Doctran: interrogate documents 向量存储知识库中使用的文档通常以叙事或对话格式存储。然而,大多数用户查询都采用问题格式。如果我们在向量化文档之前将其转换为问答格式,就可以提高检索相关文档的可能性。
Doctran: language translation 通过嵌入比较文档具有跨多种语言工作的优势。”Harrison 说 hello” 和 “Harrison dice hola” 在向量空间中将占据类似的位置,因为它们在语义上具有相同的含义。
Google Cloud Vertex AI Reranker Vertex 搜索排名 API 是 Vertex AI Agent Builder 中的独立 API 之一。它接收一个文档列表,并根据这些文档与查询的相关程度对其进行排名。
Google Cloud Document AI 文档人工智能 (Document AI) 是一个来自 Google Cloud 的文档理解平台,用于将非结构化数据从文档转换为结构化数据。
Google Translate 谷歌翻译是谷歌开发的一项多语言神经机器翻译服务,用于将文本、文档和网站从一种语言翻译成另一种语言。
HTML to text Html2text 是一个 Python 包,它可以将一页 HTML 转换为清晰易读的纯 ASCII 文本。
Infinity Reranker Infinity 是一个高吞吐量、低延迟的 REST API,用于文本嵌入、模型重排和剪辑。
Jina Reranker 本笔记本演示了如何使用 Jina Reranker 进行文档压缩和检索。
Markdownify Markdownify 是一个 Python 包,它可以将 HTML 文档转换为 Markdown 格式,并提供可定制的选项来处理标签、标题样式等。
Nuclia Nuclia 自动索引来自任何内部和外部来源的非结构化数据,提供优化的搜索结果和生成答案。
OpenAI metadata tagger 使用结构化元数据标记摄入的文档通常很有用,以便日后进行更有针对性的最近邻搜索。
OpenVINO Reranker OpenVINO™ 是一个用于优化和部署 AI 推理的开源工具包,支持各种硬件设备。
RankLLM Reranker RankLLM 是一种灵活的重新排序框架,支持列表式、成对式和点式排序模型,针对检索和排序任务进行了优化。
Volcengine Reranker 本笔记本展示了如何使用 Volcengine Reranker 进行文档压缩和检索。Volcengine 是字节跳动开发的云服务平台。
VoyageAI Reranker Voyage AI 提供前沿的嵌入/矢量化模型。
作者:Jeebiz  创建时间:2025-10-19 00:31
最后编辑:Jeebiz  更新时间:2025-10-19 12:18