需要使用java从任何二进制文件中提取文本

时间:2015-01-06 00:03:01

标签: java parsing

我如何使用java解析二进制文件中的内容并从中提取文本。我需要这个能够使用lucene索引二进制文件的内容。我目前支持的文件类型是pdf,html,word,excel,ppt,html。

1 个答案:

答案 0 :(得分:1)

您可以尝试Apache Tika

  

Apache Tika™工具包可检测并提取超过一千种不同文件类型(如PPT,XLS和PDF)的元数据和文本。所有这些文件类型都可以通过单一界面进行解析,使得Tika对搜索引擎索引,内容分析,翻译等非常有用。