搜索PDF中没有文本的页面

时间:2017-01-23 16:31:42

标签: pdf text ocr ghostscript

您将如何继续在pdf文件中搜索“空”页面? 在下一步中,我想使用ghostscript将这些页面转换为.tiff。如果可以在unix机器上使用一个命令执行所有操作,那将是完美的。

1 个答案:

答案 0 :(得分:0)

嗯,这在很大程度上取决于你的'text'(来自你的主题行)或'empty'页面(来自你的正文)的含义。它完全有可能具有再现文本形状的矢量路径,或者实际上再现字符形状的图像。

你认为这些是'文字'吗?

或者您正在寻找根本没有内容的页面(即空白)?我无法想象你为什么要把它们渲染成TIFF .....

对于没有文本的页面(即不使用任何PDF文本操作符),我会在Ghostscript中使用文本提取设备。从该设备输出为空的任何页面上都没有文本。

然后,您可以在PDF文件上运行Ghostscript并使用-sPageList开关来处理您想要的页面,并选择其中一个TIFF设备以获得TIFF输出。

你不能一次性使用(使用未经过修改的Ghostscript),因为你需要文本提取设备来确定哪些页面有文本,然后是TIFF设备来编写页面。

可以编写一个输出到TIFF的新设备,如果设备的text_begin()方法被调用,它只是跳过写页面。这样做可以一次完成,但这意味着要编写一个新设备(其中99%是tiff设备的复制+粘贴)并重建Ghostscript。你当然也必须AGPL你的代码。