文档转换器(Document Transformers)
文档转换器 | 描述 |
---|---|
AI21SemanticTextSplitter | 本示例概述了如何在 LangChain 中使用 AI21SemanticTextSplitter。 |
Beautiful Soup | Beautiful Soup 是一个 Python 解析包 |
Cross Encoder Reranker | 本笔记本展示了如何使用自己的交叉编码器在检索器中实现 Reranker,这些编码器来自 Hugging Face 交叉编码器模型或实现交叉编码器功能的 Hugging Face 模型。 |
DashScope Reranker | 本笔记本演示了如何使用 DashScope Reranker 进行文档压缩和检索。DashScope 是阿里巴巴云的生成式 AI 服务。 |
Doctran: extract properties | 我们可以使用 Doctran 库提取文档的有用特征,Doctran 库使用 OpenAI 的函数调用特征来提取特定的元数据。 |
Doctran: interrogate documents | 向量存储知识库中使用的文档通常以叙事或对话格式存储。然而,大多数用户查询都采用问题格式。如果我们在向量化文档之前将其转换为问答格式,就可以提高检索相关文档的可能性。 |
Doctran: language translation | 通过嵌入比较文档具有跨多种语言工作的优势。”Harrison 说 hello” 和 “Harrison dice hola” 在向量空间中将占据类似的位置,因为它们在语义上具有相同的含义。 |
Google Cloud Vertex AI Reranker | Vertex 搜索排名 API 是 Vertex AI Agent Builder 中的独立 API 之一。它接收一个文档列表,并根据这些文档与查询的相关程度对其进行排名。 |
Google Cloud Document AI | 文档人工智能 (Document AI) 是一个来自 Google Cloud 的文档理解平台,用于将非结构化数据从文档转换为结构化数据。 |
Google Translate | 谷歌翻译是谷歌开发的一项多语言神经机器翻译服务,用于将文本、文档和网站从一种语言翻译成另一种语言。 |
HTML to text | Html2text 是一个 Python 包,它可以将一页 HTML 转换为清晰易读的纯 ASCII 文本。 |
Infinity Reranker | Infinity 是一个高吞吐量、低延迟的 REST API,用于文本嵌入、模型重排和剪辑。 |
Jina Reranker | 本笔记本演示了如何使用 Jina Reranker 进行文档压缩和检索。 |
Markdownify | Markdownify 是一个 Python 包,它可以将 HTML 文档转换为 Markdown 格式,并提供可定制的选项来处理标签、标题样式等。 |
Nuclia | Nuclia 自动索引来自任何内部和外部来源的非结构化数据,提供优化的搜索结果和生成答案。 |
OpenAI metadata tagger | 使用结构化元数据标记摄入的文档通常很有用,以便日后进行更有针对性的最近邻搜索。 |
OpenVINO Reranker | OpenVINO™ 是一个用于优化和部署 AI 推理的开源工具包,支持各种硬件设备。 |
RankLLM Reranker | RankLLM 是一种灵活的重新排序框架,支持列表式、成对式和点式排序模型,针对检索和排序任务进行了优化。 |
Volcengine Reranker | 本笔记本展示了如何使用 Volcengine Reranker 进行文档压缩和检索。Volcengine 是字节跳动开发的云服务平台。 |
VoyageAI Reranker | Voyage AI 提供前沿的嵌入/矢量化模型。 |
作者:Jeebiz 创建时间:2025-10-19 00:31
最后编辑:Jeebiz 更新时间:2025-10-19 12:18
最后编辑:Jeebiz 更新时间:2025-10-19 12:18