此外,我想知道如何在索引时添加元数据,以便我可以提升一些参数
答案 0 :(得分:4)
有几个框架可以从富文本文件中提取适合Lucene索引的文本(pdf,ppt等)。
答案 1 :(得分:2)
您可以使用Apache Tika。 Tika是一个工具包,用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。
支持的文档格式
代码看起来像这样。 读者阅读器=新Tika()。parse(stream);
答案 2 :(得分:1)
Lucene索引文本而不是文件 - 你需要一些其他的过程来从文件中提取文本并运行Lucene。
答案 3 :(得分:1)
见https://github.com/WolfgangFahl/pdfindexer 对于使用PDFBox和Apache Lucene将PDF文件逐页拆分为文本的java解决方案, 索引这些文本页面并创建一个生成的html索引文件,该文件使用相应的打开参数链接到pdf源中的页面。