如何打印与solr 7.6.0中的搜索查询匹配的pdf的实际内容

时间:2019-02-04 09:09:19

标签: pdf post solr apache-tika

我正在使用的solr版本是7.6.0(无模式模式)。我尝试使用默认提供的Post实用工具jar为少数PDF文档建立索引。现在,当我执行查询时,包含查询字符串的文件的详细信息将正确显示。但是我看不到任何显示了文件实际内容的字段。我的Solrconfig.xml的请求处理程序如下所示

<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="uprefix">ignored_</str>
      <str name="fmap.a">ignored_</str>
      <str name="fmap.div">ignored_</str>
      <str name="fmap.content">text</str>
      <str name="captureAttr">true</str>
      <str name="lowernames">true</str>
      <bool name="ignoreTikaException">true</bool>
    </lst>
</requestHandler>

发布pdf文件进行索引后,自动生成的managed-schema.xml文件中没有任何“内容”字段。同样,在查询时,仅显示文件的元数据,例如id,日期,标题,内容类型,流大小,作者等,但不突出显示实际的内容信息。请说清楚。 “ http://localhost:8983/solr/TestCore6/select?hl=on&q=mars&wt=json

2 个答案:

答案 0 :(得分:0)

如果您能够执行搜索并且出现突出显示问题,那么可以考虑使用其他参数来突出显示。

hl.fl指定要突出显示的字段列表。接受以逗号或空格分隔的字段列表,Solr应该为其生成突出显示的片段。

hl.fragsize指定要突出显示的片段的近似大小(以字符为单位)。 0表示不应考虑分段,而应使用整个字段值。默认值为100。

下面是具有所有参数列表的链接。您需要检查哪种情况适用并适合您的情况。

Highlighting in solr

答案 1 :(得分:0)

以下是有助于解决我的问题的解决方案:

架构中的“ 文本”字段默认情况下带有“ =“ false””。为了显示内容信息,必须将该字段设置为真。

参考链接: Solr query in a pdf file, is not returning highlighting content