我目前正在编写python并设法使用pdftotext从pdf中提取文本。
该特定文本文件被拆分为字符串列表。通过使用正则表达式,我能够找到我感兴趣的特定单词。我将文本分成列表的原因是我想测量两个特定单词之间的距离,而距离是指我之间的单词数量。两个字。
然而,在找到单词的位置后,我希望能够参考最初的pdf。详细地说,我对页面感兴趣,甚至可能是这些单词所在的行(如果pdf支持这种结构)。
我有一个想法是为pdf的每一页执行此过程,所以当我找到这些单词时,我知道这是什么页面。但这有一个很大的缺点,即有时分页不一定是自然的。意思是,如果遗憾地将它们分页,我将无法找到这些单词。
您是否知道如何以更复杂的方式执行此操作?
答案 0 :(得分:0)
您需要一个比您正在使用的库更复杂的库。 Datalogics PDF Java Toolkit有几个类可以从PDF文件中提取文本。您使用的那个取决于您在提取后要对文本执行的操作。 ReadingOrderTextExtractor将创建一个列表列表,允许您提取文本并检查段落的内容,这些段落中的句子以及该句子中的单词。您不仅能够分辨出单词之间的距离,还能说出它们是在同一个句子还是段落中。您已找到Word对象,然后您可以在页面上找到它的位置,允许突出显示以及它所在的页码。