应用错误收集

时间：2013-02-27 15:41:26

标签： pdf solr full-text-search apache-tika solr-cell

我正在构建一个Web应用程序，用户可以在其中搜索pdf文档并使用pdf.js查看它们。我想用段落的简短片段显示搜索结果，其中找到搜索词，以及在右页打开文档的链接。

所以我需要的是页码和每个搜索结果的简短文本片段。

我正在使用SOLR 4.1索引pdf文档。索引本身工作正常，但我不知道如何获取搜索结果的页码和段落。

我在这里找到了这个“Indexing PDF with page numbers with Solr”，但它并没有真正有用。

答案 0 :(得分：2)

我现在拆分PDF并将每个页面分别发送给SOLR。因此，每个页面都是一个标识为<id_of_document>_<page_number>的自己的文档，另外一个字段doc_id只包含<id_of_document>，用于对结果进行分组。

答案 1 :(得分：0)

JIRA SOLR-380带有补丁，您可以查看。

答案 2 :(得分：0)

我也尝试使用页码获取结果，但无法执行此操作。我使用Apache PDFBox来分割目录中存在的所有PDF并将文件发送到Solr服务器。

答案 3 :(得分：0)

我自己没试过。方法，

与拆分PDF并将其作为单独的Solr文档索引相比，这是一种更好的方法。

如果您发现此设计存在缺陷，请回复我的帖子。我会尝试解决它。