如何处理弹性搜索中的html编码文本?

时间:2014-04-12 18:20:51

标签: elasticsearch

在我们的一个应用程序中,我们主要使用我们想要搜索的html编码文本。我可以在将文档添加到弹性搜索之前剥离html标签(我有一个包含html标签的完整文本的字段和一个没有剥离版本的文本)。

我想知道是否有可用的标准分析器,以便我不必事先剥离html标签“我自己”......

希望有人可以提供帮助......

1 个答案:

答案 0 :(得分:1)

html_strip char filter应该有所帮助:

示例:

curl -XPOST "http://<server>/_analyze?tokenizer=standard&char_filters=html_strip&text='This%20is%20a%20%3Cb%3EDOCUMENT%3C%2Fb%3E%20with%20html'"