Question

我正在使用的solr版本是7.6.0（无模式模式）。我尝试使用默认提供的Post实用工具jar为少数PDF文档建立索引。现在，当我执行查询时，包含查询字符串的文件的详细信息将正确显示。但是我看不到任何显示了文件实际内容的字段。我的Solrconfig.xml的请求处理程序如下所示

<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="uprefix">ignored_</str>
      <str name="fmap.a">ignored_</str>
      <str name="fmap.div">ignored_</str>
      <str name="fmap.content">text</str>
      <str name="captureAttr">true</str>
      <str name="lowernames">true</str>
      <bool name="ignoreTikaException">true</bool>
    </lst>
</requestHandler>

发布pdf文件进行索引后，自动生成的managed-schema.xml文件中没有任何“内容”字段。同样，在查询时，仅显示文件的元数据，例如id，日期，标题，内容类型，流大小，作者等，但不突出显示实际的内容信息。请说清楚。 “ http://localhost:8983/solr/TestCore6/select?hl=on&q=mars&wt=json”

Answer 1

如果您能够执行搜索并且出现突出显示问题，那么可以考虑使用其他参数来突出显示。

hl.fl指定要突出显示的字段列表。接受以逗号或空格分隔的字段列表，Solr应该为其生成突出显示的片段。

hl.fragsize指定要突出显示的片段的近似大小（以字符为单位）。 0表示不应考虑分段，而应使用整个字段值。默认值为100。

下面是具有所有参数列表的链接。您需要检查哪种情况适用并适合您的情况。

Highlighting in solr

Answer 2

以下是有助于解决我的问题的解决方案：

架构中的“ 文本”字段默认情况下带有“ =“ false””。为了显示内容信息，必须将该字段设置为真。

参考链接： Solr query in a pdf file, is not returning highlighting content

如何打印与solr 7.6.0中的搜索查询匹配的pdf的实际内容

2 个答案: