应用错误收集

时间：2009-04-08 15:47:59

标签： pdf pdf-manipulation

我有几个包含以下属性的PDF：

每张PDF都包含可变数量的“文档”，页面数量不同。

“文档”中的每个页面都有“第3页，共26页”等文本。

我希望能够自动识别PDF中每个“文档”的第一页和最后一页（注意：这与PDF的第一页和最后一页不同，因为每个PDF可能包含多个“文档” ）并将这些提取到一个新的PDF中，以便以后打印和存档。

我不确定我可以使用哪些工具来解决这个问题以及可以使用哪些库来解决这个问题。

有什么建议吗？最好是免费的，可以用来创建一个可以在Windows上运行的工具。

答案 0 :(得分：1)

Java有一个很好的免费pdf库。查看iText。

来自iText的网站：

您可以使用iText：

由于它是Java，因此在Windows或其他任何地方都不会出现问题。

答案 1 :(得分：0)

您可以尝试使用pdftk解压缩PDF，解析数据，拆分数据，然后重新压缩。

答案 2 :(得分：0)

我设法想出一个可行的unix hack：

应该在我的unix平台上工作，但不确定是否可以将所有这些工具带到Windows环境中。

一种可能性是使用电子邮件网关接收pdf并返回已处理的pdf，这使得它更加难看。

任何拥有原生win32解决方案的人？