如何在ElasticSearch的重点中过滤掉(损坏的)HTML标签?

时间:2017-02-02 14:00:52

标签: grails elasticsearch groovy elasticsearch-plugin

我在使用ElasticSearch Grails插件时出现问题, 即突出显示功能。

它返回带有HTML标记的文本,这不会是一个大问题,但它也会返回破坏的,截断的HTML标记。

即。 &#34; href=google.de> Link <a&#34;

使用RegEx可以轻松过滤掉这些内容。

对此的解决方案似乎是这样的自定义分析器:

'{
   "index" : {
      "analysis" : {
         "analyzer" : {
            "test_1" : {
               "char_filter" : [
                  "html_strip"
               ],
               "tokenizer" : "standard"
            },
            "test_2" : {
               "filter" : [
                  "standard",
                  "lowercase",
                  "stop",
                  "asciifolding"
               ],
               "char_filter" : [
                  "html_strip"
               ],
               "tokenizer" : "standard"
            }
         }
      }
   }
}'

来自HTML Strip in Elastic Search

问题是我如何将上述内容纳入GRAILS elasticsearch插件? (或任何其他解决方案)

1 个答案:

答案 0 :(得分:0)

尝试使用: “片段数”:0

将返回所有内容