开源Java文本分析器

时间:2011-06-22 17:48:11

标签: java pdf ms-office openoffice.org text-parsing

是否有单个 Java文本解析器,可用于解析Office(Windows)文档,OpenOffice文档和PDF?另外,我需要使用Apache POI for Word文档和OpenOffice和PDF的其他库吗?如果是这样,OpenOffice和PDF的最佳选择是什么?

2 个答案:

答案 0 :(得分:2)

如果任务正在阅读PDF文档,iText是您最好的选择。 对于基于Microsoft Office和OpenOffice(LibreOffice)的文档,POI将是我的解决方案。

答案 1 :(得分:2)

Apache Tika

  

Apache Tika™工具包检测和   提取元数据和结构化文本   来自各种文件的内容   现有的解析器库。

不确定这是否符合您的“单一”目的。