文档加载程序(Document Loader)
DocumentLoader 将数据加载到标准的 LangChain Document 格式中。
每个 DocumentLoader 都有自己的特定参数,但它们都可以用.load 方法以相同的方式调用。一个示例用例如下:
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()网页
下面的 DocumentLoader 允许您加载网页。
请参阅本指南以了解起点:如何:加载网页。
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| Web | 使用 urllib 和 BeautifulSoup 加载和解析 HTML 网页 | 包 |
| Unstructured | 使用 Unstructured 加载和解析网页 | 包 |
| RecursiveURL | 从根 URL 递归抓取所有子链接 | 包 |
| Sitemap | 抓取给定站点地图上的所有页面 | 包 |
| Spider | 返回可供 LLM 使用的数据的爬虫和抓取器 | API |
| Firecrawl | 可在本地部署的 API 服务 | API |
| Docling | 使用 Docling 加载和解析网页 | 包 |
| Hyperbrowser | 用于运行和扩展无头浏览器的平台,可用于抓取/爬取任何网站 | API |
| AgentQL | 使用 AgentQL 查询或自然语言提示与网页交互并从任何网页提取结构化数据 | API |
| Oxylabs | 支持访问各种数据源的网络智能平台 | API |
下面的文档加载程序允许您加载 PDF 文档。
请参阅本指南以了解起点:如何:加载 PDF 文件。
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| PyPDF | 使用 pypdf 加载和解析 PDF 文件 |
包 |
| Unstructured | 使用 Unstructured 的开源库加载 PDF 文件 | 包 |
| Amazon Textract | 使用 AWS API 加载 PDF 文件 | API |
| MathPix | 使用 MathPix 加载 PDF 文件 | 包 |
| PDFPlumber | 使用 PDFPlumber 加载 PDF 文件 | 包 |
| PyPDFDirectry | 加载包含 PDF 文件的目录 | 包 |
| PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
| PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
| PyMuPDF4LLM | 使用 PyMuPDF4LLM 将 PDF 内容加载为 Markdown 格式 | 包 |
| PDFMiner | 使用 PDFMiner 加载 PDF 文件 | 包 |
| Upstage Document Parse Loader | 使用 UpstageDocumentParseLoader 加载 PDF 文件 | 包 |
| Docling | 使用 Docling 加载 PDF 文件 | 包 |
云提供商
下面的文档加载程序允许您加载来自您最喜欢的云提供商的文档。
| 文档加载器 | 描述 | 合作伙伴包 | API 参考 |
|---|---|---|---|
| AWS S3 Directory | 从 AWS S3 目录加载文档 | ❌ | S3DirectoryLoader |
| AWS S3 File | 从 AWS S3 文件加载文档 | ❌ | S3FileLoader |
| Azure AI Data | 从 Azure AI 服务加载文档 | ❌ | AzureAIDataLoader |
| Azure Blob Storage Container | 从 Azure Blob Storage 容器加载文档 | ❌ | AzureBlobStorageContainerLoader |
| Azure Blob Storage File | 从 Azure Blob Storage 文件加载文档 | ❌ | AzureBlobStorageFileLoader |
| Dropbox | 从 Dropbox 加载文档 | ❌ | DropboxLoader |
| Google Cloud Storage Directory | 从 GCS 存储桶加载文档 | ✅ | GCSDirectoryLoader |
| Google Cloud Storage File | 从 GCS 文件对象加载文档 | ✅ | GCSFileLoader |
| Google Drive | 从 Google Drive 加载文档(仅限 Google Docs) | ✅ | GoogleDriveLoader |
| Huawei OBS Directory | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
| Huawei OBS File | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
| Microsoft OneDrive | 从 Microsoft OneDrive 加载文档 | ❌ | OneDriveLoader |
| Microsoft SharePoint | 从 Microsoft SharePoint 加载文档 | ❌ | SharePointLoader |
| Tencent COS Directory | 从腾讯云对象存储目录加载文档 | ❌ | TencentCOSDirectoryLoader |
| Tencent COS File | 从腾讯云对象存储文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
下面的文档加载程序允许您从不同的社交媒体平台加载文档。
| 文档加载器 | API 参考 |
|---|---|
| TwitterTweetLoader | |
| RedditPostsLoader |
消息服务
下面的文档加载程序允许您从不同的消息平台加载数据。
| 文档加载器 | API 参考 |
|---|---|
| Telegram | TelegramChatFileLoader |
| WhatsAppChatLoader | |
| Discord | DiscordChatLoader |
| Facebook Chat | FacebookChatLoader |
| Mastodon | MastodonTootsLoader |
生产力工具
下面的文档加载程序允许您从常用的生产力工具加载数据。
| 文档加载器 | API 参考 |
|---|---|
| Figma | FigmaFileLoader |
| Notion | NotionDirectoryLoader |
| Slack | SlackDirectoryLoader |
| Quip | QuipLoader |
| Trello | TrelloLoader |
| Roam | RoamLoader |
| GitHub | GithubFileLoader |
常见文件类型
下面的文档加载程序允许您加载常见数据格式的数据。
| 文档加载器 | 数据类型 |
|---|---|
| CSVLoader | CSV 文件 |
| DirectoryLoader | 给定目录中的所有文件 |
| Unstructured | 多种文件类型(参见 https://docs.unstructured.io/platform/supported-file-types) |
| JSONLoader | JSON 文件 |
| BSHTMLLoader | HTML 文件 |
| DoclingLoader | 多种文件类型(参见 https://ds4sd.github.io/docling/) |
所有文档加载程序
作者:Jeebiz 创建时间:2025-10-19 00:00
最后编辑:Jeebiz 更新时间:2025-10-19 12:18
最后编辑:Jeebiz 更新时间:2025-10-19 12:18