是否有一种编程方式来确定PDF文本是否可以使用Python提取?

时间:2015-01-23 22:24:13

标签: python pdf

我花了45分钟试图找出pyPdf的原因

PageObject.getPage(x).extractText())

没有提取任何东西。我最后给它提供了一个不同的PDF,它工作得很好,让我得出结论,原始的PDF有一些(非密码)保护。在Adobe Reader中确认“页面提取:不允许。”

如果有的话,我可以通过编程方式确定这种保护是否存在?

1 个答案:

答案 0 :(得分:0)

这可能就是你想要的。

x = PageObject.getPage(x).extractText())
if (x == ""): #Or whatever exactly you get when it fails.
   raise ValueError("The PDF file can not be imported")