从多个PDF文件中提取特定字段并写入文本文件

时间:2011-07-21 02:59:22

标签: java windows

我有一个充满子目录的目录,所有子目录都包含PDF文件和/或填充了PDF文件的子目录。基本上,一组非常无组织的PDF。我想要做的是解析每个文件,拉出一个特定字段的内容,并将输出转储到文本文件。最终结果将是一个大文本文件,其中包含每个PDF中的字段内容。当然这是可能的。问题是,如果没有太多的编程,是否可以轻松完成。

2 个答案:

答案 0 :(得分:1)

在我看来,最好的选择是为提供API的第三方组件支付一点钱。

http://www.aspose.com/categories/java-components/aspose.pdf-for-java/default.aspx http://www.pdfcomponent.com/java-pdf/

如果它不必是Java,我相信PHP有一个开源库。

答案 1 :(得分:1)

我只使用过iText的PDF生成功能,但我知道它还具有PDF文本提取功能。如果您需要重新发布,它是根据GPL许可的,或者是付费商业许可。

http://itextpdf.com/