LiteParse V2

https://mp.weixin.qq.com/s/HXj_ah-5N0IgjytXlzOtLA

LlamaIndex 创始人写了世界最快的 PDF 解析器,457页PDF 0.7秒读完,开源免费零云依赖

PDF 解析,终于不是噩梦了。

用过 pymupdf、pypdf 的人都知道那种痛——几百页的 PDF 丢进去,泡杯咖啡回来,进度条还没动。更崩溃的是,解析出来的文本顺序是乱的,双栏排版直接糊成一片。

Jerry Liu——LlamaIndex 的创始人——昨天宣布了一个消息:他们把 LiteParse 用 Rust 完全重写了,v2 版本正式发布。结果是,小文档解析快了 100 倍,大文档快了 3 倍。

我们创造了世界上最快的 PDF 解析器。而且它比任何其他开源、无模型的 PDF 解析器都更准确。
(原文:”We’ve created the world’s fastest PDF parser. And it’s more accurate than any other open-source, model-free PDF parser out there.”)

更狠的是,它不光快——Python、Node、Rust、浏览器,全都能跑。

来龙去脉:从 Node 到 Rust 的赌注

LiteParse的第一版是用 TypeScript 写的,跑在 Node.js 上。当时的目标很明确——做一个不依赖大模型的轻量 PDF 解析工具,能提取结构化文本和空间布局。

但 Node 的限制摆在那里。每次解析都得启动一个 Node 进程,小文档的延迟大到离谱。社区开始喊:有没有 Python 版?能不能跑在浏览器里?

Jerry 团队试过把 TypeScript 编译成二进制,结果系统依赖太复杂,搞不定。最终他们做了个大胆的决定——用 Rust 重写整个项目。

重点:Rust 核心写好之后,Python、Node、WASM 版本自动同步更新,不用手写多套代码。

现在,LiteParse v2 一套 Rust 代码库,通过 napi-rs 导出 Node 绑定,PyO3 导出 Python 绑定,wasm-bindgen 导出浏览器版本。四个平台,一个核心。

Rust 带来的不只是一次性的性能提升——这意味着以后每次优化,所有平台同时受益。

性能:到底有多快
图片
数字说话。Jerry 团队拿了一个 457 页、100MB 的 PDF 测试:

LiteParse v2:0.777 秒
对比其他开源解析器:同一个文档,pymupdf4llm 花了 24.02 秒,差了 30 倍
小文档的差距更夸张。之前 V1 的瓶颈在启动 Node 进程上,现在 Rust 原生执行,5 到 100 倍的加速是常态。

怎么做到的?核心引擎用了 PDFium(Chromium 同款 PDF 渲染引擎)的自定义 fork,OCR 默认跑 Tesseract(通过 tesseract-rs 编译进二进制),零外部依赖。

如果你跑的是实时 Agent 应用,需要对文档秒级响应——这东西就是为你做的。

(原文:”If you are running real-time agents and applications that need to read docs fast, LiteParse is the tool for it.”)

上手:三步跑起来
这章的目标很简单——让你能跑起来。选一条路,三分钟搞定。

选一条路安装
Python 用户(推荐,依赖最少):

pip install liteparse
Node.js 用户:

npm i @llamaindex/liteparse
Rust 用户:

cargo install liteparse
装完你就有了 lit 这个命令行工具。三条路完全等价。

重点:Tesseract OCR 已经打包在二进制里,不需要单独安装。开箱即用。

如果你想把 LiteParse 装进 Claude Code、Codex 这类编程 Agent 里,一行搞定:

npx skills add run-llama/llamaparse-agent-skills –skill liteparse
配好之后,每次使用只需要敲 lit parse 文件名。就这么简单。

最容易踩的坑
Windows 用户:如果你要解析 Word/Excel/PPT,需要装 LibreOffice 做格式转换,还要把 C:\Program Files\LibreOffice\program 加到 PATH。只解析 PDF 的话不需要。

离线环境:设置 TESSDATA_PREFIX 环境变量指向预下载的语言包目录,不然 OCR 会报错。

装好之后:三个命令搞定日常
lit parse:解析文件。

lit parse document.pdf –format json -o output.json
加 –target-pages “1-5,10” 只解析特定页。加 –no-ocr 跳过 OCR。

lit batch-parse:批量处理整个文件夹。

lit batch-parse ./input-dir ./output-dir
lit screenshot:给 PDF 截图。

lit screenshot document.pdf –target-pages “1,3,5” -o ./screenshots
截图功能专为 LLM Agent 设计——有些视觉信息文本提取不出来,截图直接喂给多模态模型。

更多参数看 lit parse –help,这里只列最常用的。

它不是什么:和 LlamaParse 的关系【注意】
LiteParse 走纯本地路线。如果你要处理的是普通 PDF——单栏文本、一般表格、标准排版——它足够快,足够准。

【LlamaParse的使用场景】:但遇到密集表格、多栏排版、图表、手写文字、扫描件,LiteParse 会吃力。这时候轮到他家另一个产品 LlamaParse 上场——云端方案,跑大模型,专治复杂文档。

【注意注意】:LiteParse 与 LlamaParse 不同的名字,有区别,本文重点讲的是LiteParse!!!

重点:LiteParse 是日常通勤车,LlamaParse 是越野卡车。你得知道自己要走什么路。

LiteParse 还有一个有趣的限制:WASM 浏览器版本不带内置 OCR。因为系统依赖没法塞进浏览器,OCR 需要通过回调函数调用 tesseract.js。这意味着在浏览器里解析扫描件 PDF 需要额外配置。

PDF 解析这个赛道好久没有让人”我去!”一下的东西了。LiteParse v2 用 Rust 重写的打法,把一个慢吞吞的工具变成了能跑在 Agent 热路径上的基建。开源、免费、Apache 2.0,没有云依赖。

下一次你的 Agent 需要看 PDF 的时候,试试让它 0.777 秒读完 457 页。

参考链接: [1] Jerry Liu 推文:https://x.com/jerryjliu0/status/2059710330016817501 [2] 博客:https://www.llamaindex.ai/blog/liteparse-v2-0-runs-everywhere [3] GitHub:https://github.com/run-llama/liteparse

点赞、转发、小心心 ❤️ 欢迎在评论区留下你的想法!

— 完 —

作者:Ddd4j  创建时间:2026-06-02 11:05
最后编辑:Ddd4j  更新时间:2026-06-04 23:10
上一篇:
下一篇: