应用错误收集

从多个PDF文件中提取特定字段并写入文本文件

时间：2011-07-21 02:59:22

标签： java windows

我有一个充满子目录的目录，所有子目录都包含PDF文件和/或填充了PDF文件的子目录。基本上，一组非常无组织的PDF。我想要做的是解析每个文件，拉出一个特定字段的内容，并将输出转储到文本文件。最终结果将是一个大文本文件，其中包含每个PDF中的字段内容。当然这是可能的。问题是，如果没有太多的编程，是否可以轻松完成。

2 个答案:

答案 0 :(得分：1)

在我看来，最好的选择是为提供API的第三方组件支付一点钱。

http://www.aspose.com/categories/java-components/aspose.pdf-for-java/default.aspx http://www.pdfcomponent.com/java-pdf/

如果它不必是Java，我相信PHP有一个开源库。

答案 1 :(得分：1)

我只使用过iText的PDF生成功能，但我知道它还具有PDF文本提取功能。如果您需要重新发布，它是根据GPL许可的，或者是付费商业许可。

http://itextpdf.com/