PDFBox可以加载源PDF,然后将多个可变页面范围保存为单独的PDF吗?

时间:2016-04-05 20:46:14

标签: pdf pdfbox

我正在编写一个处理非常大的PDF的系统,最多400,000页,每个PDF有100,000个单独的语句。我的任务是快速将此PDF拆分为单独的语句。由于报表的页数不同,因此我无法在每4页进行一次简单的拆分,这使事情变得复杂。

我在36核心AWS实例上使用并行处理来加速工作,但是将400,000页PDF初始拆分为36个块非常非常缓慢,尽管处理生成的11,108页块是非常快,所以最终会有很多开销来获得好结果。

我认为这可以更快地完成的方式是使用PDFBox编写一个进程,将源PDF加载到内存中一次(与调用命令行实用程序如pdftk或cpdf 36次以分割大量PDF)然后使用它在我的其他进程的子节点上监听端口,告诉它将页面xy拆分为名为z的pdf。

这是否可以使用PDFBox,如果可以,我将用什么方法来完成它?

0 个答案:

没有答案