从PDF中提取页面时最大限度地减少IO和内存使用

时间:2015-06-05 16:27:02

标签: pdf itextsharp

我正在开发一个云托管的Web应用程序,需要从较大的PDF库中提取已提取的页面。例如,来自50,000页PDF的5页> 1 GB大小。

为了实现这一点,我使用iTextSharp使用this blog article中的建议方法从大型PDF中提取页面范围。

我遇到的麻烦是,在测试过程中,我发现PdfReader正在读取整个源PDF,以便提取我需要的几个页面。我已经足够了解PDF结构是危险的,而且我知道资源可以传播到整个文件的随机读取访问,但我希望避免阅读所有文件内容。< / p>

我甚至发现有几个提及RandomAccessFileOrArray是打开大型PDF时解决高内存使用量的银弹,但唉,即使我使用它,源PDF仍然在其中完整阅读。

是否有更有效的方法(使用iText或其他方式)仅从源PDF中访问我需要的内容以提取几页?

0 个答案:

没有答案