我喜欢400个或更多PDF文件,它们共同构成一个文本。它就像一本页面分开的书。我需要以编程方式在整个文本中搜索一些关键字。
所以我的第一个问题是:首先逐页搜索或首先将所有PDF加入一个大文件然后执行搜索会更好吗?
第二个是:制作它的最佳方法是什么?那里有没有好的节目或图书馆?
顺便说一下,我只使用PHP和Python。
答案 0 :(得分:1)
import pyPdf
def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + "\n"
# Collapse whitespace
content = " ".join(content.replace("\xa0", " ").strip().split())
return content
for f in filelist:
print keyword in getPDFContent(f)
逐个搜索它们会更快,更简单,因为您可以简单地遍历所有文件并在每个文件上使用代码。