Question

我有一个solr 6.6.0实例正在运行并索引了一些文档 - PDF和HTML。以前我有solr 4并且搜索突出显示结果很好。不幸的是，这个（默认）行为似乎已经在v6中消失了。该设置是原始solr教程提到的默认设置。我玩了很多GET参数，但无法突出显示内容。我很感激任何提示或tipp让这个运行。我错过了一些配置更改或参数吗？

E.g。

http://serv1:8983/solr/gettingstarted/select?wt=json&indent=true&q=betreten&hl=true&hl.method=unified

给出

{
  "responseHeader":{
    "zkConnected":true,
    "status":0,
    "QTime":152,
    "params":{
      "q":"betreten",
      "hl":"true",
      "indent":"true",
      "hl.method":"unified",
      "wt":"json"}},
  "response":{"numFound":1,"start":0,"maxScore":0.822483,"docs":[
      {
        "id":"/var/docs/2017/08/22/2319/page-1.html",
        "stream_size":[3820],
        "x_parsed_by":["org.apache.tika.parser.DefaultParser",
          "org.apache.tika.parser.html.HtmlParser"],
        "stream_content_type":["text/html"],
        "dc_title":["/var/docs/2017/08/22/2319/page-1.html (22.08.2017 23:19)"],
        "ocr_system":["tesseract 3.04.01"],
        "content_encoding":["UTF-8"],
        "content_type_hint":["text/html; charset=utf-8"],
        "resourcename":["/var/docs/2017/08/22/2319/page-1.html"],
        "title":["/var/docs/2017/08/22/2319/page-1.html (22.08.2017 23:19)"],
        "content_type":["application/xhtml+xml; charset=UTF-8"],
        "ocr_capabilities":["ocr_page ocr_carea ocr_par ocr_line ocrx_word"],
        "_version_":1576604407523442688}]
  },
  "highlighting":{
    "/var/docs/2017/08/22/2319/page-1.html":{
      "_text_":[]}}}

谢谢！

Answer 1

荧光笔通常会动态分析存储的 文字，以便突出显示。

在您的架构中，请检查是否存储了_text_。如果是托管架构，则可能不会存储_text_。请检查managed-schema或schema.xml中的_text_配置

<field name="_text_" type="text_general" multiValued="true" indexed="true" stored="false"/>

stored=false表示未存储_text_的内容。如果您设置stored="true"，则会存储_text_，并且可以突出显示。

注意：更改schema.xml或托管模式文件后，

您需要重新启动Solr实例以使更改生效
需要重新加载数据

Solr 6突出显示不显示内容或_text_

1 个答案: