我如何在python中阅读pdf? 我知道将其转换为文本的一种方式,但我想直接从pdf中阅读内容。
任何人都可以解释python中哪个模块最适合pdf提取
答案 0 :(得分:20)
您可以使用PyPDF2包
#install pyDF2
pip install PyPDF2
# importing all the required modules
import PyPDF2
# creating an object
file = open('example.pdf', 'rb')
# creating a pdf reader object
fileReader = PyPDF2.PdfFileReader(file)
# print the number of pages in pdf file
print(fileReader.numPages)
答案 1 :(得分:5)
您可以在python中使用textract模块
<强> Textract 强>
安装
pip install textract
读取pdf
import textract
text = textract.process('path/to/pdf/file', method='pdfminer')
详细信息 Textract
答案 2 :(得分:4)
尝试PyPDF2。