如何使用Apache POI从PDF中提取原始文本?

时间:2013-06-04 05:55:51

标签: java pdf apache-poi text-extraction

我需要从几个文件中提取原始文本,其中一些是PDF,其中一些是DOC文件格式。

我必须使用Apache POI来执行此操作。现在,我在处理word文件(提取和写入等)时发现了很多文档,但我无法找到有关从PDF中提取的任何文档。

我认为Apache POI具有此功能是错误的吗?

如果是这样,任何人都可以推荐类似的Java程序,允许从多种文件格式中提取文本吗?

如果没有,有人能指出我应该看到的文档和/或类/方法吗?

提前感谢您的帮助。

1 个答案:

答案 0 :(得分:2)

是的,你认为POI会这样做是错误的。 Apache POI适用于Microsoft Office文件格式,而PDF不适用。

您要么直接使用Apache PDFBox,要么使用Apache Tika,它们将同时使用Microsoft Office和PDF文件格式(以及其他许多格式)。