我正在使用的solr版本是7.6.0(无模式模式)。我尝试使用默认提供的Post实用工具jar为少数PDF文档建立索引。现在,当我执行查询时,包含查询字符串的文件的详细信息将正确显示。但是我看不到任何显示了文件实际内容的字段。我的Solrconfig.xml的请求处理程序如下所示
<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="uprefix">ignored_</str>
<str name="fmap.a">ignored_</str>
<str name="fmap.div">ignored_</str>
<str name="fmap.content">text</str>
<str name="captureAttr">true</str>
<str name="lowernames">true</str>
<bool name="ignoreTikaException">true</bool>
</lst>
</requestHandler>
发布pdf文件进行索引后,自动生成的managed-schema.xml文件中没有任何“内容”字段。同样,在查询时,仅显示文件的元数据,例如id,日期,标题,内容类型,流大小,作者等,但不突出显示实际的内容信息。请说清楚。 “ http://localhost:8983/solr/TestCore6/select?hl=on&q=mars&wt=json”
答案 0 :(得分:0)
如果您能够执行搜索并且出现突出显示问题,那么可以考虑使用其他参数来突出显示。
hl.fl
指定要突出显示的字段列表。接受以逗号或空格分隔的字段列表,Solr应该为其生成突出显示的片段。
hl.fragsize
指定要突出显示的片段的近似大小(以字符为单位)。 0表示不应考虑分段,而应使用整个字段值。默认值为100。
下面是具有所有参数列表的链接。您需要检查哪种情况适用并适合您的情况。
答案 1 :(得分:0)
以下是有助于解决我的问题的解决方案:
架构中的“ 文本”字段默认情况下带有“ =“ false””。为了显示内容信息,必须将该字段设置为真。
参考链接: Solr query in a pdf file, is not returning highlighting content