pdftotext
作用
提取 PDF 中的文本内容
安装
Windows
Windows 下不需要安装,因为我目前也没有发现存在Windows的版本。
不安装这个工具,对程序有影响,但是影响不大,因为从PDF中提取txt文本内容,还可以使用 calibre 进行提取。
Linux
[sudo] apt install poppler-utils
Mac
[sudo] brew install poppler-utils
是否安装成功
执行如下命令:
pdftotext --help
看到如下结果,则表示安装成功。
pdftotext --help
------
pdftotext version 0.41.0
Copyright 2005-2016 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011 Glyph & Cog, LLC
Usage: pdftotext [options] <PDF-file> [<text-file>]
-f <int> : first page to convert
-l <int> : last page to convert
-r <fp> : resolution, in DPI (default is 72)
-x <int> : x-coordinate of the crop area top left corner
-y <int> : y-coordinate of the crop area top left corner
-W <int> : width of crop area in pixels (default is 0)
-H <int> : height of crop area in pixels (default is 0)
-layout : maintain original physical layout
-fixed <fp> : assume fixed-pitch (or tabular) text
-raw : keep strings in content stream order
-htmlmeta : generate a simple HTML file, including the meta information
-enc <string> : output text encoding name
-listenc : list available encodings
-eol <string> : output end-of-line convention (unix, dos, or mac)
-nopgbrk : don't insert page breaks between pages
-bbox : output bounding box for each word and page size to html. Sets -htmlmeta
-bbox-layout : like -bbox but with extra layout bounding box data. Sets -htmlmeta
-opw <string> : owner password (for encrypted files)
-upw <string> : user password (for encrypted files)
-q : don't print any messages or errors
-v : print copyright and version info
-h : print usage information
-help : print usage information
--help : print usage information
-? : print usage information
测试
使用如下命令,测试文本提取结果。
pdftotext -f 1 -l 5 example.pdf example.txt
如果提取到 txt 文件中的文本内容没有出现乱码,则表示内容提取成功。如果出现乱码,需要从字符编码和中文字体排查。
作者:Jeebiz 创建时间:2023-02-15 23:21
最后编辑:Jeebiz 更新时间:2024-03-12 09:16
最后编辑:Jeebiz 更新时间:2024-03-12 09:16