如何将pdf文档的每个页面索引为单独的Solr文档

时间:2012-08-16 11:58:29

标签: solr solrj

我正在尝试从solr中找到搜索结果的位置检索页码。我发现将每个页面索引为单独的solr文档会起作用。但我似乎找不到从pdf文件索引单个页面的方法。

有没有人找到使用solr索引文档单页的方法?

1 个答案:

答案 0 :(得分:1)

您可以使用任何库,例如pdfbox,以便分别从每个页面中提取文本并向Solr提交不同的文档