Question

我在使用ElasticSearch Grails插件时出现问题，即突出显示功能。

它返回带有HTML标记的文本，这不会是一个大问题，但它也会返回破坏的，截断的HTML标记。

即。＆＃34; href=google.de> Link <a＆＃34;

使用RegEx可以轻松过滤掉这些内容。

对此的解决方案似乎是这样的自定义分析器：

'{
   "index" : {
      "analysis" : {
         "analyzer" : {
            "test_1" : {
               "char_filter" : [
                  "html_strip"
               ],
               "tokenizer" : "standard"
            },
            "test_2" : {
               "filter" : [
                  "standard",
                  "lowercase",
                  "stop",
                  "asciifolding"
               ],
               "char_filter" : [
                  "html_strip"
               ],
               "tokenizer" : "standard"
            }
         }
      }
   }
}'

来自HTML Strip in Elastic Search

问题是我如何将上述内容纳入GRAILS elasticsearch插件？（或任何其他解决方案）

Answer 1

尝试使用： “片段数”：0

将返回所有内容

如何在ElasticSearch的重点中过滤掉（损坏的）HTML标签？

1 个答案: