文档加载程序(Document Loader)

DocumentLoader 将数据加载到标准的 LangChain Document 格式中。

每个 DocumentLoader 都有自己的特定参数,但它们都可以用.load 方法以相同的方式调用。一个示例用例如下:

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
    ...  # <-- Integration specific parameters here
)
data = loader.load()

网页

下面的 DocumentLoader 允许您加载网页。

请参阅本指南以了解起点:如何:加载网页。

文档加载器 描述 包/API
Web 使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页
Unstructured 使用 Unstructured 加载和解析网页
RecursiveURL 从根 URL 递归抓取所有子链接
Sitemap 抓取给定站点地图上的所有页面
Spider 返回可供 LLM 使用的数据的爬虫和抓取器 API
Firecrawl 可在本地部署的 API 服务 API
Docling 使用 Docling 加载和解析网页
Hyperbrowser 用于运行和扩展无头浏览器的平台,可用于抓取/爬取任何网站 API
AgentQL 使用 AgentQL 查询或自然语言提示与网页交互并从任何网页提取结构化数据 API
Oxylabs 支持访问各种数据源的网络智能平台 API

PDF

下面的文档加载程序允许您加载 PDF 文档。

请参阅本指南以了解起点:如何:加载 PDF 文件。

文档加载器 描述 包/API
PyPDF 使用 pypdf 加载和解析 PDF 文件
Unstructured 使用 Unstructured 的开源库加载 PDF 文件
Amazon Textract 使用 AWS API 加载 PDF 文件 API
MathPix 使用 MathPix 加载 PDF 文件
PDFPlumber 使用 PDFPlumber 加载 PDF 文件
PyPDFDirectry 加载包含 PDF 文件的目录
PyPDFium2 使用 PyPDFium2 加载 PDF 文件
PyMuPDF 使用 PyMuPDF 加载 PDF 文件
PyMuPDF4LLM 使用 PyMuPDF4LLM 将 PDF 内容加载为 Markdown 格式
PDFMiner 使用 PDFMiner 加载 PDF 文件
Upstage Document Parse Loader 使用 UpstageDocumentParseLoader 加载 PDF 文件
Docling 使用 Docling 加载 PDF 文件

云提供商

下面的文档加载程序允许您加载来自您最喜欢的云提供商的文档。

文档加载器 描述 合作伙伴包 API 参考
AWS S3 Directory 从 AWS S3 目录加载文档 S3DirectoryLoader
AWS S3 File 从 AWS S3 文件加载文档 S3FileLoader
Azure AI Data 从 Azure AI 服务加载文档 AzureAIDataLoader
Azure Blob Storage Container 从 Azure Blob Storage 容器加载文档 AzureBlobStorageContainerLoader
Azure Blob Storage File 从 Azure Blob Storage 文件加载文档 AzureBlobStorageFileLoader
Dropbox 从 Dropbox 加载文档 DropboxLoader
Google Cloud Storage Directory 从 GCS 存储桶加载文档 GCSDirectoryLoader
Google Cloud Storage File 从 GCS 文件对象加载文档 GCSFileLoader
Google Drive 从 Google Drive 加载文档(仅限 Google Docs) GoogleDriveLoader
Huawei OBS Directory 从华为对象存储服务目录加载文档 OBSDirectoryLoader
Huawei OBS File 从华为对象存储服务文件加载文档 OBSFileLoader
Microsoft OneDrive 从 Microsoft OneDrive 加载文档 OneDriveLoader
Microsoft SharePoint 从 Microsoft SharePoint 加载文档 SharePointLoader
Tencent COS Directory 从腾讯云对象存储目录加载文档 TencentCOSDirectoryLoader
Tencent COS File 从腾讯云对象存储文件加载文档 TencentCOSFileLoader

社交平台

下面的文档加载程序允许您从不同的社交媒体平台加载文档。

文档加载器 API 参考
Twitter TwitterTweetLoader
Reddit RedditPostsLoader

消息服务

下面的文档加载程序允许您从不同的消息平台加载数据。

文档加载器 API 参考
Telegram TelegramChatFileLoader
WhatsApp WhatsAppChatLoader
Discord DiscordChatLoader
Facebook Chat FacebookChatLoader
Mastodon MastodonTootsLoader

生产力工具

下面的文档加载程序允许您从常用的生产力工具加载数据。

文档加载器 API 参考
Figma FigmaFileLoader
Notion NotionDirectoryLoader
Slack SlackDirectoryLoader
Quip QuipLoader
Trello TrelloLoader
Roam RoamLoader
GitHub GithubFileLoader

常见文件类型

下面的文档加载程序允许您加载常见数据格式的数据。

文档加载器 数据类型
CSVLoader CSV 文件
DirectoryLoader 给定目录中的所有文件
Unstructured 多种文件类型(参见 https://docs.unstructured.io/platform/supported-file-types)
JSONLoader JSON 文件
BSHTMLLoader HTML 文件
DoclingLoader 多种文件类型(参见 https://ds4sd.github.io/docling/)

所有文档加载程序

作者:Jeebiz  创建时间:2025-10-19 00:00
最后编辑:Jeebiz  更新时间:2025-10-19 12:18