使用Python编写文本的PDF文件?

时间:2009-11-04 07:30:03

标签: python pdf text-mining

是否有python的包/库允许我打开PDF,并在文本中搜索某些单词?

2 个答案:

答案 0 :(得分:11)

使用PyPdf2,您可以使用extractText()方法提取pdf文字并进行处理。

更新:更改了文本以引用PyPdf2,感谢@Aditya Kumar的提升。

答案 1 :(得分:4)

我认为你不能一步到位,但你可以用pdfminer从pdf中获取文本。然后,您可以对恢复的数据应用任何文本搜索。