我正在开发一个云托管的Web应用程序,需要从较大的PDF库中提取已提取的页面。例如,来自50,000页PDF的5页> 1 GB大小。
为了实现这一点,我使用iTextSharp使用this blog article中的建议方法从大型PDF中提取页面范围。
我遇到的麻烦是,在测试过程中,我发现PdfReader正在读取整个源PDF,以便提取我需要的几个页面。我已经足够了解PDF结构是危险的,而且我知道资源可以传播到整个文件的随机读取访问,但我希望避免阅读所有文件内容。< / p>
我甚至发现有几个提及RandomAccessFileOrArray是打开大型PDF时解决高内存使用量的银弹,但唉,即使我使用它,源PDF仍然在其中完整阅读。
是否有更有效的方法(使用iText或其他方式)仅从源PDF中访问我需要的内容以提取几页?