如何索引lucene中的pdf,ppt,xl文件(基于java或python或php中的任何一个都可以)?

时间:2010-04-06 06:03:11

标签: java indexing lucene

此外,我想知道如何在索引时添加元数据,以便我可以提升一些参数

4 个答案:

答案 0 :(得分:4)

有几个框架可以从富文本文件中提取适合Lucene索引的文本(pdf,ppt等)。

  • 其中一个是Apache Tika,是Lucene的一个子项目。
  • Apache POI是Apache内部更通用的文档处理项目。
  • 还有一些商业选择。

答案 1 :(得分:2)

您可以使用Apache Tika。 Tika是一个工具包,用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。

支持的文档格式

  • 超文本标记语言
  • XML和派生格式
  • Microsoft Office文档格式
  • OpenDocument格式
  • 可移植文档格式
  • 电子出版物格式
  • 富文本格式
  • 压缩和包装格式
  • 文字格式
  • 音频格式
  • 图片格式
  • 视频格式
  • Java类文件和档案
  • mbox格式

代码看起来像这样。 读者阅读器=新Tika()。parse(stream);

答案 2 :(得分:1)

Lucene索引文本而不是文件 - 你需要一些其他的过程来从文件中提取文本并运行Lucene。

答案 3 :(得分:1)

https://github.com/WolfgangFahl/pdfindexer 对于使用PDFBox和Apache Lucene将PDF文件逐页拆分为文本的java解决方案, 索引这些文本页面并创建一个生成的html索引文件,该文件使用相应的打开参数链接到pdf源中的页面。