在我们的一个应用程序中,我们主要使用我们想要搜索的html编码文本。我可以在将文档添加到弹性搜索之前剥离html标签(我有一个包含html标签的完整文本的字段和一个没有剥离版本的文本)。
我想知道是否有可用的标准分析器,以便我不必事先剥离html标签“我自己”......
希望有人可以提供帮助......
答案 0 :(得分:1)
html_strip char filter应该有所帮助:
示例:
curl -XPOST "http://<server>/_analyze?tokenizer=standard&char_filters=html_strip&text='This%20is%20a%20%3Cb%3EDOCUMENT%3C%2Fb%3E%20with%20html'"