如何搜索pdf文件中的单词或行?
是否有现成的模块通过简洁来做到这一点?
提前谢谢你,
答案 0 :(得分:3)
有一种叫做pyPDF.的东西
这是一个Pure-Python
库,构建为PDF toolkit.
您可以提取(使用extractText()
方法)&还使用类似下面的代码在pdf文件上执行搜索。
pdf = pyPdf.PdfFileReader(file(path, "rb"))
content = pdf.getPage(1).extractText()