我花了45分钟试图找出pyPdf的原因
PageObject.getPage(x).extractText())
没有提取任何东西。我最后给它提供了一个不同的PDF,它工作得很好,让我得出结论,原始的PDF有一些(非密码)保护。在Adobe Reader中确认“页面提取:不允许。”
如果有的话,我可以通过编程方式确定这种保护是否存在?
答案 0 :(得分:0)
这可能就是你想要的。
x = PageObject.getPage(x).extractText())
if (x == ""): #Or whatever exactly you get when it fails.
raise ValueError("The PDF file can not be imported")