LiteParse v2 - Powered by MinDoc

LiteParse V2https://mp.weixin.qq.com/s/HXj_ah-5N0IgjytXlzOtLA
LlamaIndex 创始人写了世界最快的 PDF 解析器，457页PDF 0.7秒读完，开源免费零云依赖
PDF 解析，终于不是噩梦了。
用过 pymupdf、pypdf 的人都知道那种痛——几百页的 PDF 丢进去，泡杯咖啡回来，进度条还没动。更崩溃的是，解析出来的文本顺序是乱的，双栏排版直接糊成一片。
Jerry Liu——LlamaIndex 的创始人——昨天宣布了一个消息：他们把 LiteParse 用 Rust 完全重写了，v2 版本正式发布。结果是，小文档解析快了 100 倍，大文档快了 3 倍。
我们创造了世界上最快的 PDF 解析器。而且它比任何其他开源、无模型的 PDF 解析器都更准确。
（原文：”We’ve created the world’s fastest PDF parser. And it’s more accurate than any other open-source, model-free PDF parser out there.”）
更狠的是，它不光快——Python、Node、Rust、浏览器，全都能跑。
来龙去脉：从 Node 到 Rust 的赌注LiteParse的第一版是用 TypeScript 写的，跑在 Node.js 上。当时的目标很明确——做一个不依赖大模型的轻量 PDF 解析工具，能提取结构化文本和空间布局。
但 Node 的限制摆在那里。每次解析都得启动一个 Node 进程，小文档的延迟大到离谱。社区开始喊：有没有 Python 版？能不能跑在浏览器里？
Jerry 团队试过把 TypeScript 编译成二进制，结果系统依赖太复杂，搞不定。最终他们做了个大胆的决定——用 Rust 重写整个项目。
重点：Rust 核心写好之后，Python、Node、WASM 版本自动同步更新，不用手写多套代码。
现在，LiteParse v2 一套 Rust 代码库，通过 napi-rs 导出 Node 绑定，PyO3 导出 Python 绑定，wasm-bindgen 导出浏览器版本。四个平台，一个核心。
Rust 带来的不只是一次性的性能提升——这意味着以后每次优化，所有平台同时受益。
性能：到底有多快
图片
数字说话。Jerry 团队拿了一个 457 页、100MB 的 PDF 测试：
LiteParse v2：0.777 秒
对比其他开源解析器：同一个文档，pymupdf4llm 花了 24.02 秒，差了 30 倍
小文档的差距更夸张。之前 V1 的瓶颈在启动 Node 进程上，现在 Rust 原生执行，5 到 100 倍的加速是常态。
怎么做到的？核心引擎用了 PDFium（Chromium 同款 PDF 渲染引擎）的自定义 fork，OCR 默认跑 Tesseract（通过 tesseract-rs 编译进二进制），零外部依赖。
如果你跑的是实时 Agent 应用，需要对文档秒级响应——这东西就是为你做的。
（原文：”If you are running real-time agents and applications that need to read docs fast, LiteParse is the tool for it.”）
上手：三步跑起来
这章的目标很简单——让你能跑起来。选一条路，三分钟搞定。
选一条路安装
Python 用户（推荐，依赖最少）：
pip install liteparse
Node.js 用户：
npm i @llamaindex/liteparse
Rust 用户：
cargo install liteparse
装完你就有了 lit 这个命令行工具。三条路完全等价。
重点：Tesseract OCR 已经打包在二进制里，不需要单独安装。开箱即用。
如果你想把 LiteParse 装进 Claude Code、Codex 这类编程 Agent 里，一行搞定：
npx skills add run-llama/llamaparse-agent-skills –skill liteparse
配好之后，每次使用只需要敲 lit parse 文件名。就这么简单。
最容易踩的坑
Windows 用户：如果你要解析 Word/Excel/PPT，需要装 LibreOffice 做格式转换，还要把 C:\Program Files\LibreOffice\program 加到 PATH。只解析 PDF 的话不需要。
离线环境：设置 TESSDATA_PREFIX 环境变量指向预下载的语言包目录，不然 OCR 会报错。
装好之后：三个命令搞定日常
lit parse：解析文件。
lit parse document.pdf –format json -o output.json
加 –target-pages “1-5,10” 只解析特定页。加 –no-ocr 跳过 OCR。
lit batch-parse：批量处理整个文件夹。
lit batch-parse ./input-dir ./output-dir
lit screenshot：给 PDF 截图。
lit screenshot document.pdf –target-pages “1,3,5” -o ./screenshots
截图功能专为 LLM Agent 设计——有些视觉信息文本提取不出来，截图直接喂给多模态模型。
更多参数看 lit parse –help，这里只列最常用的。
它不是什么：和 LlamaParse 的关系【注意】
LiteParse 走纯本地路线。如果你要处理的是普通 PDF——单栏文本、一般表格、标准排版——它足够快，足够准。
【LlamaParse的使用场景】：但遇到密集表格、多栏排版、图表、手写文字、扫描件，LiteParse 会吃力。这时候轮到他家另一个产品 LlamaParse 上场——云端方案，跑大模型，专治复杂文档。
【注意注意】：LiteParse 与 LlamaParse 不同的名字，有区别，本文重点讲的是LiteParse！！！
重点：LiteParse 是日常通勤车，LlamaParse 是越野卡车。你得知道自己要走什么路。
LiteParse 还有一个有趣的限制：WASM 浏览器版本不带内置 OCR。因为系统依赖没法塞进浏览器，OCR 需要通过回调函数调用 tesseract.js。这意味着在浏览器里解析扫描件 PDF 需要额外配置。
PDF 解析这个赛道好久没有让人”我去！”一下的东西了。LiteParse v2 用 Rust 重写的打法，把一个慢吞吞的工具变成了能跑在 Agent 热路径上的基建。开源、免费、Apache 2.0，没有云依赖。
下一次你的 Agent 需要看 PDF 的时候，试试让它 0.777 秒读完 457 页。
参考链接： [1] Jerry Liu 推文：https://x.com/jerryjliu0/status/2059710330016817501 [2] 博客：https://www.llamaindex.ai/blog/liteparse-v2-0-runs-everywhere [3] GitHub：https://github.com/run-llama/liteparse
点赞、转发、小心心 ❤️ 欢迎在评论区留下你的想法！
— 完 —
作者：Ddd4j  创建时间：2026-06-02 11:05
最后编辑：Ddd4j  更新时间：2026-06-04 23:10
上一篇： CVAT
下一篇： Python 音视频处理