Solr-从索引数据中恢复摘要

时间:2019-02-26 22:37:09

标签: solr lucene

我设置了Solr / Lucene,在其中索引了一组文档(MS Word文件),并且可以愉快地搜索这些文档的内容。但是,我想从文档内容中返回一个片段,该片段显示匹配行的位置(匹配项+/- 5个单词)。我曾尝试跟踪一系列Google搜索,但我的索引似乎无法直接访问“内容”。

任何人都可以给我一些基本的简单指示,以指示可能对此造成任何错误的地方-到目前为止,我的所有工作都基于《 Solr参考指南》的指南和示例-因此,我不确定该问题是否在搜索参数或原始索引中。

我这样做是为了创建一组清晰的用户需求以构建最终解决方案,而不是自己创建最终解决方案,因此我不是工具专家,也不需要成为一个工具,只需要证明什么是工具即可。使用此工具集可以实现。

1 个答案:

答案 0 :(得分:0)

正如MatsLindh在上面指出的那样,问题在于配置没有将Tika解析的实际内容绘制到特定字段中,因此没有要显示和突出显示的文本的全部内容

为解决此问题,我点击了指向指导文档的链接(https://lucene.apache.org/solr/guide/7_1/uploading-data-with-solr-cell-using-apache-tika.html#configuring-the-solr-extractingrequesthandler),并审阅了fmap上的该部分,并以“上次修改日期”给出的示例作为指导。

然后我进入相关核心文件夹中的solrconfig.xml文件,并在代码中的以下行中将fmap条目下面的行添加到了该行中:

  <str name="fmap.content">testcontent</str>

我以前在核心的solr Web界面下设置了testcontent字段。然后,我通过命令提示符重新运行索引行,这似乎可以解决问题,可以提取基本内容并对其进行重点强调。

非常感谢您对此提供的投入-还有很多我想测试以帮助开发清晰的需求集,但这确实有助于证明某些基础知识不复杂。