我需要从几个文件中提取原始文本,其中一些是PDF,其中一些是DOC文件格式。
我必须使用Apache POI来执行此操作。现在,我在处理word文件(提取和写入等)时发现了很多文档,但我无法找到有关从PDF中提取的任何文档。
我认为Apache POI具有此功能是错误的吗?
如果是这样,任何人都可以推荐类似的Java程序,允许从多种文件格式中提取文本吗?
如果没有,有人能指出我应该看到的文档和/或类/方法吗?
提前感谢您的帮助。
答案 0 :(得分:2)
是的,你认为POI会这样做是错误的。 Apache POI适用于Microsoft Office文件格式,而PDF不适用。
您要么直接使用Apache PDFBox,要么使用Apache Tika,它们将同时使用Microsoft Office和PDF文件格式(以及其他许多格式)。