使用Solr为带有页码的PDF编制索引

时间:2010-11-04 06:05:16

标签: pdf solr full-text-search apache-tika solr-cell

我正在使用ExtractingRequestHandler为Solr索引PDF。我想显示页码以及文档中的匹配,例如“foo中的bar.pdf一词位于第2,3和5页。”

是否可以在查询结果中包含此页码?

1 个答案:

答案 0 :(得分:5)

这需要一些开发工作,但您可以通过将每个文档的每个页面编入索引作为单独的Solr文档来实现,然后使用field collapsing对每个文档的不同页面命中进行分组。

请注意,您需要每晚进行此操作,在当前发布的任何Solr版本中都不会实现字段折叠。

另请注意:字段折叠在版本 Solr 3.3 中实施。预计下一个大版本( Solr 4.0

会有更多更新