我正在尝试从受保护的pdf文件的第一页中提取文本。我没有密码,但是PyPDF2中的解密功能似乎可以正常工作。但是PyPDF2提取时(使用了extractText()函数)错过了一些文本。因此,我想改为使用pdfminer(无法在Windows计算机上安装pdftotext,因此必须使用pdfminer)。这是当前代码:
pdfFileObj = open(fileName, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
if pdfReader.isEncrypted:
pdfReader.decrypt('')
pageObject = pdfReader.getPage(0)
然后,我想使用pdfminer来读取pageObject中的文本,但无法弄清楚该怎么做。有人可以帮忙吗?
谢谢!