标签: java apache pdf solr lucene
我是apache lucene的新手 我已经使用apache lucene编写了索引pdf文件的代码,并且能够搜索只给出搜索字符串所在文档名称的文本。我使用pdfbox提取文本并将其编入索引但是如何明智地索引pdf文本页面。我发现Field崩溃了,以获取pdf文档中的页码,但似乎有点令人困惑。
如何在索引中搜索短语,而不仅仅是获取短语 文档名称,也是使用apache lucene的pdf文档中的页码。任何示例代码将会或任何参考将受到高度赞赏
任何示例代码或任何引用都将受到高度赞赏