使用PyPDF2读取PDF文件时出现以下错误
raise utils.PdfReadError("File has not been decrypted")
PdfReadError: File has not been decrypted
我一直试图通过python以编程方式阅读PDF文档。对于大多数PDF文件来说,它都可以正常工作,但很少有人得到以下错误
raise utils.PdfReadError("File has not been decrypted")
PdfReadError: File has not been decrypted
我已经尝试了另一种stackoverflow解决方案中的解决方案:PyPDF 2 Decrypt Not Working
上述问题的解决方案仍然无法解决我的问题
import os
import PyPDF2
from PyPDF2 import PdfFileReader
fp = open(filename)
pdfFile = PdfFileReader(fp)
if pdfFile.isEncrypted:
try:
pdfFile.decrypt('')
print('File Decrypted (PyPDF2)')
except:
command = ("cp "+ filename +
" temp.pdf; qpdf --password='' --decrypt temp.pdf " + filename
+ "; rm temp.pdf")
os.system(command)
print('File Decrypted (qpdf)')
fp = open(filename)
pdfFile = PdfFileReader(fp)
else:
print('File Not Encrypted')
问题似乎不是文件名之间的空格或将密码设置为''。
以某种方式无法解决此错误。任何帮助表示赞赏。谢谢。
我的代码:
import PyPDF2
import os
from os import listdir
from os.path import isfile, join
mypath='D:/POC PDF'
onlyfiles = [os.path.join(mypath, f) for f in os.listdir(mypath) if os.path.isfile(os.path.join(mypath, f))]
for file in onlyfiles:
fileReader = PyPDF2.PdfFileReader(open(file,'rb'))
countpage = fileReader.getNumPages()
print(countpage)
答案 0 :(得分:1)
要回答我自己的问题:感谢我的一个朋友,我找到了比PyPDF2更好的软件包。是PyMuPDF。这是一个示例实现
import fitz
def extractText(file):
doc = fitz.open(file)
text = []
for page in doc:
t = page.getText().encode("utf8")
text.append(t)
return text