pdf文件与python

时间:2011-03-10 17:15:38

标签: python file pdf word line

如何搜索pdf文件中的单词或行?

是否有现成的模块通过简洁来做到这一点?

提前谢谢你,

1 个答案:

答案 0 :(得分:3)

有一种叫做pyPDF.的东西 这是一个Pure-Python库,构建为PDF toolkit.

您可以提取(使用extractText()方法)&还使用类似下面的代码在pdf文件上执行搜索。

pdf = pyPdf.PdfFileReader(file(path, "rb"))
content = pdf.getPage(1).extractText()