应用错误收集

如何使用Apache POI从PDF中提取原始文本？

时间：2013-06-04 05:55:51

标签： java pdf apache-poi text-extraction

我需要从几个文件中提取原始文本，其中一些是PDF，其中一些是DOC文件格式。

我必须使用Apache POI来执行此操作。现在，我在处理word文件（提取和写入等）时发现了很多文档，但我无法找到有关从PDF中提取的任何文档。

我认为Apache POI具有此功能是错误的吗？

如果是这样，任何人都可以推荐类似的Java程序，允许从多种文件格式中提取文本吗？

如果没有，有人能指出我应该看到的文档和/或类/方法吗？

提前感谢您的帮助。

1 个答案:

答案 0 :(得分：2)

是的，你认为POI会这样做是错误的。 Apache POI适用于Microsoft Office文件格式，而PDF不适用。

您要么直接使用Apache PDFBox，要么使用Apache Tika，它们将同时使用Microsoft Office和PDF文件格式（以及其他许多格式）。