如何在400多个PDF文件中搜索关键字?

时间:2014-08-01 21:35:43

标签: php python pdf search keyword

我喜欢400个或更多PDF文件,它们共同构成一个文本。它就像一本页面分开的书。我需要以编程方式在整个文本中搜索一些关键字。

所以我的第一个问题是:首先逐页搜索或首先将所有PDF加入一个大文件然后执行搜索会更好吗?

第二个是:制作它的最佳方法是什么?那里有没有好的节目或图书馆?

顺便说一下,我只使用PHP和Python。

1 个答案:

答案 0 :(得分:1)

使用PyPdf,如here所述。

import pyPdf

def getPDFContent(path):
    content = ""
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    for i in range(0, pdf.getNumPages()):
        # Extract text from page and add to content
        content += pdf.getPage(i).extractText() + "\n"
    # Collapse whitespace
    content = " ".join(content.replace("\xa0", " ").strip().split())
    return content

for f in filelist:
    print keyword in getPDFContent(f)

逐个搜索它们会更快,更简单,因为您可以简单地遍历所有文件并在每个文件上使用代码。