pyPdf是一个很好的库,可以拆分,合并PDF文件。 我用它将pdf文档分成1页文档。 pyPdf是纯python,在保存提取的页面时,在PdfFileWriter对象的_sweepIndirectReferences()方法中花费了大量的时间。我需要一些性能更好的东西。我尝试过使用多线程但由于大部分时间花在python代码上,因为GIL没有速度增加(实际上运行速度较慢)。
是否有用c编写的库提供相同的功能?或者是否有人对如何提高性能有很好的了解(除了为每个我要分割的pdf文件生成新进程外)
提前谢谢。
跟进。 链接到几个命令行解决方案,有时可以证明比pyPDF更快:
我修改了pyPDF PdfWriter类来跟踪_sweepIndirectReferences()方法花了多少时间。如果它太长了(现在我使用3秒的魔法值)然后我通过从python调用它来恢复使用ghostscript。
感谢您的所有答案。 (codelogic的xpdf参考是让我寻找不同方法的参考)