如何使用命令行(窗口)突出显示PDF格式的文本?

时间:2014-02-04 22:26:55

标签: windows pdf command-line highlight

我正在寻找一种突出单词的方法(例如“某些单词[0-9] ”)或更好的整行,其中包含给定的单词,在某些单独的PDF中。 它将成为Windows上Batch-process的一部分,因此我需要一个命令行方式来执行此操作。我看过Ghostscript,但看不出它是如何被使用的。

希望我没有做错 - 我调查了其他问题,主要是Add comments to PDF files automagically with regular expressions但这对我没有帮助,英语不是我的母语 - 你可能已经注意到了。

提前致谢

1 个答案:

答案 0 :(得分:0)

Ghostscript无法做到这一点。通用文本工具也不能这样做,因为(1)大多数PDF都在压缩块中包含文本命令,并且(2)文本通常没有以任何标准方式进行“编码”。有时,字体提供了ToUnicode映射,但通常甚至不提供这种映射;(3)看起来像文本的甚至可能不是文本-可能只是位图图像。

诸如'mutool clean -d'之类的工具,然后“扩展” PDF,以便解决(1)的问题-在PDF中可以找到文本命令,但是您仍然可能会遇到类似的事情:

(!"##$) Tj

由于(2)而不是Hello。然后,即使使用了标准编码,也有另一种方法在PDF中完成字距调整文本:

[(H)120(e)80(l)95(l)95(o)] TJ

可能,但非常困难,并且需要编程,但仍然无法解决(3)(这需要位图文本的OCR)。