我有一个pdfs库(大多数都有一些随机压缩的东西,djvu也是)。其中一些pdf已损坏,应删除。
无论如何我可以在python中进行pdf完整性检查吗?
答案 0 :(得分:2)
如果读取过程给你一个错误,你可以pyPDF读取pdf并声明它无效......就像这样,
from pyPdf import PdfFileReader
try :
mypdf = PdfFileReader(file( 'filename', 'rb'))
except:
print filename,' is invalid pdf'