应用错误收集

使用pdftotext后：从txt中查找字符串页面

时间：2016-07-21 15:57:08

标签： python-3.x pdftotext

我目前正在编写python并设法使用pdftotext从pdf中提取文本。

该特定文本文件被拆分为字符串列表。通过使用正则表达式，我能够找到我感兴趣的特定单词。我将文本分成列表的原因是我想测量两个特定单词之间的距离，而距离是指我之间的单词数量。两个字。

然而，在找到单词的位置后，我希望能够参考最初的pdf。详细地说，我对页面感兴趣，甚至可能是这些单词所在的行（如果pdf支持这种结构）。

我有一个想法是为pdf的每一页执行此过程，所以当我找到这些单词时，我知道这是什么页面。但这有一个很大的缺点，即有时分页不一定是自然的。意思是，如果遗憾地将它们分页，我将无法找到这些单词。

您是否知道如何以更复杂的方式执行此操作？

1 个答案:

答案 0 :(得分：0)

您需要一个比您正在使用的库更复杂的库。 Datalogics PDF Java Toolkit有几个类可以从PDF文件中提取文本。您使用的那个取决于您在提取后要对文本执行的操作。 ReadingOrderTextExtractor将创建一个列表列表，允许您提取文本并检查段落的内容，这些段落中的句子以及该句子中的单词。您不仅能够分辨出单词之间的距离，还能说出它们是在同一个句子还是段落中。您已找到Word对象，然后您可以在页面上找到它的位置，允许突出显示以及它所在的页码。