PyPDF2中仍然存在“ PDF文件尚未解密”的问题

时间:2019-02-12 13:08:21

标签: python-3.x pdf encryption pypdf2

使用PyPDF2读取PDF文件时出现以下错误

raise utils.PdfReadError("File has not been decrypted")
PdfReadError: File has not been decrypted

我一直试图通过python以编程方式阅读PDF文档。对于大多数PDF文件来说,它都可以正常工作,但很少有人得到以下错误

raise utils.PdfReadError("File has not been decrypted")
PdfReadError: File has not been decrypted

我已经尝试了另一种stackoverflow解决方案中的解决方案:PyPDF 2 Decrypt Not Working

上述问题的解决方案仍然无法解决我的问题

import os
import PyPDF2
from PyPDF2 import PdfFileReader

fp = open(filename)
pdfFile = PdfFileReader(fp)
if pdfFile.isEncrypted:
   try:
       pdfFile.decrypt('')
       print('File Decrypted (PyPDF2)')
   except:
       command = ("cp "+ filename +
        " temp.pdf; qpdf --password='' --decrypt temp.pdf " + filename
        + "; rm temp.pdf")
       os.system(command)
       print('File Decrypted (qpdf)')
       fp = open(filename)
       pdfFile = PdfFileReader(fp)
else:
    print('File Not Encrypted')

问题似乎不是文件名之间的空格或将密码设置为''。

以某种方式无法解决此错误。任何帮助表示赞赏。谢谢。

我的代码:

import PyPDF2
import os
from os import listdir
from os.path import isfile, join

mypath='D:/POC PDF'
onlyfiles = [os.path.join(mypath, f) for f in os.listdir(mypath) if os.path.isfile(os.path.join(mypath, f))]
for file in onlyfiles:
    fileReader = PyPDF2.PdfFileReader(open(file,'rb'))
    countpage = fileReader.getNumPages()
    print(countpage)

1 个答案:

答案 0 :(得分:1)

要回答我自己的问题:感谢我的一个朋友,我找到了比PyPDF2更好的软件包。是PyMuPDF。这是一个示例实现

import fitz

def extractText(file): 
    doc = fitz.open(file) 
    text = []
    for page in doc: 
        t = page.getText().encode("utf8") 
        text.append(t)
    return text