文档加载程序(Document Loader)
DocumentLoader 将数据加载到标准的 LangChain Document 格式中。
每个 DocumentLoader 都有自己的特定参数,但它们都可以用.load 方法以相同的方式调用。一个示例用例如下:
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
网页
下面的 DocumentLoader 允许您加载网页。
请参阅本指南以了解起点:如何:加载网页。
文档加载器 | 描述 | 包/API |
---|---|---|
Web | 使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页 | 包 |
Unstructured | 使用 Unstructured 加载和解析网页 | 包 |
RecursiveURL | 从根 URL 递归抓取所有子链接 | 包 |
Sitemap | 抓取给定站点地图上的所有页面 | 包 |
Spider | 返回可供 LLM 使用的数据的爬虫和抓取器 | API |
Firecrawl | 可在本地部署的 API 服务 | API |
Docling | 使用 Docling 加载和解析网页 | 包 |
Hyperbrowser | 用于运行和扩展无头浏览器的平台,可用于抓取/爬取任何网站 | API |
AgentQL | 使用 AgentQL 查询或自然语言提示与网页交互并从任何网页提取结构化数据 | API |
Oxylabs | 支持访问各种数据源的网络智能平台 | API |
下面的文档加载程序允许您加载 PDF 文档。
请参阅本指南以了解起点:如何:加载 PDF 文件。
文档加载器 | 描述 | 包/API |
---|---|---|
PyPDF | 使用 pypdf 加载和解析 PDF 文件 |
包 |
Unstructured | 使用 Unstructured 的开源库加载 PDF 文件 | 包 |
Amazon Textract | 使用 AWS API 加载 PDF 文件 | API |
MathPix | 使用 MathPix 加载 PDF 文件 | 包 |
PDFPlumber | 使用 PDFPlumber 加载 PDF 文件 | 包 |
PyPDFDirectry | 加载包含 PDF 文件的目录 | 包 |
PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
PyMuPDF4LLM | 使用 PyMuPDF4LLM 将 PDF 内容加载为 Markdown 格式 | 包 |
PDFMiner | 使用 PDFMiner 加载 PDF 文件 | 包 |
Upstage Document Parse Loader | 使用 UpstageDocumentParseLoader 加载 PDF 文件 | 包 |
Docling | 使用 Docling 加载 PDF 文件 | 包 |
云提供商
下面的文档加载程序允许您加载来自您最喜欢的云提供商的文档。
文档加载器 | 描述 | 合作伙伴包 | API 参考 |
---|---|---|---|
AWS S3 Directory | 从 AWS S3 目录加载文档 | ❌ | S3DirectoryLoader |
AWS S3 File | 从 AWS S3 文件加载文档 | ❌ | S3FileLoader |
Azure AI Data | 从 Azure AI 服务加载文档 | ❌ | AzureAIDataLoader |
Azure Blob Storage Container | 从 Azure Blob Storage 容器加载文档 | ❌ | AzureBlobStorageContainerLoader |
Azure Blob Storage File | 从 Azure Blob Storage 文件加载文档 | ❌ | AzureBlobStorageFileLoader |
Dropbox | 从 Dropbox 加载文档 | ❌ | DropboxLoader |
Google Cloud Storage Directory | 从 GCS 存储桶加载文档 | ✅ | GCSDirectoryLoader |
Google Cloud Storage File | 从 GCS 文件对象加载文档 | ✅ | GCSFileLoader |
Google Drive | 从 Google Drive 加载文档(仅限 Google Docs) | ✅ | GoogleDriveLoader |
Huawei OBS Directory | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
Huawei OBS File | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
Microsoft OneDrive | 从 Microsoft OneDrive 加载文档 | ❌ | OneDriveLoader |
Microsoft SharePoint | 从 Microsoft SharePoint 加载文档 | ❌ | SharePointLoader |
Tencent COS Directory | 从腾讯云对象存储目录加载文档 | ❌ | TencentCOSDirectoryLoader |
Tencent COS File | 从腾讯云对象存储文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
下面的文档加载程序允许您从不同的社交媒体平台加载文档。
文档加载器 | API 参考 |
---|---|
TwitterTweetLoader | |
RedditPostsLoader |
消息服务
下面的文档加载程序允许您从不同的消息平台加载数据。
文档加载器 | API 参考 |
---|---|
Telegram | TelegramChatFileLoader |
WhatsAppChatLoader | |
Discord | DiscordChatLoader |
Facebook Chat | FacebookChatLoader |
Mastodon | MastodonTootsLoader |
生产力工具
下面的文档加载程序允许您从常用的生产力工具加载数据。
文档加载器 | API 参考 |
---|---|
Figma | FigmaFileLoader |
Notion | NotionDirectoryLoader |
Slack | SlackDirectoryLoader |
Quip | QuipLoader |
Trello | TrelloLoader |
Roam | RoamLoader |
GitHub | GithubFileLoader |
常见文件类型
下面的文档加载程序允许您加载常见数据格式的数据。
文档加载器 | 数据类型 |
---|---|
CSVLoader | CSV 文件 |
DirectoryLoader | 给定目录中的所有文件 |
Unstructured | 多种文件类型(参见 https://docs.unstructured.io/platform/supported-file-types) |
JSONLoader | JSON 文件 |
BSHTMLLoader | HTML 文件 |
DoclingLoader | 多种文件类型(参见 https://ds4sd.github.io/docling/) |
所有文档加载程序
作者:Jeebiz 创建时间:2025-10-19 00:00
最后编辑:Jeebiz 更新时间:2025-10-19 12:18
最后编辑:Jeebiz 更新时间:2025-10-19 12:18