是否存在可以从PDF文档中删除“所有者”密码的库,以便可以通过编程方式从中提取文本?像PDF Technologies' Password Recovery tool之类的东西,但可以从命令行或Python调用。 GUI界面对我来说并不实用,因为文档数量太大了。
请不要对流程的合法性发表评论。有问题的PDF是拥有的,需要提取文本以形成文档集的关键字云。
答案 0 :(得分:6)
以下是另外两个(开源)命令行处理工具:
QPDF: A Content-Preserving PDF Transformation System:
qpdf --password=PASSWORD --decrypt SECURED.pdf UNSECURED.pdf
pdftk SECURED.pdf input_pw PASSWORD output UNSECURED.pdf
答案 1 :(得分:2)
我不了解python库,但是为了从PDF文档中批量删除密码,我的同事们对PwdRemover(非免费)有很好的经验。
答案 2 :(得分:0)
如果您忘记了密码或加密文档的员工已离开公司,您可以使用PDFCrack来恢复密码。