我有一个充满子目录的目录,所有子目录都包含PDF文件和/或填充了PDF文件的子目录。基本上,一组非常无组织的PDF。我想要做的是解析每个文件,拉出一个特定字段的内容,并将输出转储到文本文件。最终结果将是一个大文本文件,其中包含每个PDF中的字段内容。当然这是可能的。问题是,如果没有太多的编程,是否可以轻松完成。
答案 0 :(得分:1)
在我看来,最好的选择是为提供API的第三方组件支付一点钱。
http://www.aspose.com/categories/java-components/aspose.pdf-for-java/default.aspx http://www.pdfcomponent.com/java-pdf/
如果它不必是Java,我相信PHP有一个开源库。
答案 1 :(得分:1)
我只使用过iText的PDF生成功能,但我知道它还具有PDF文本提取功能。如果您需要重新发布,它是根据GPL许可的,或者是付费商业许可。