如何在logstash中处理标记(HTML)

时间:2017-05-05 14:53:50

标签: html elasticsearch logstash logstash-jdbc

我正在使用带有JDBC驱动程序的logstash将一堆数据从SQL Server批量导入到Elasticsearch。 (最终目标是让这些数据可以从Web前端进行搜索。)

其中一个表格列包含HTML标记(<span id='blah'><p class='foo'>等)。我希望内容可以搜索,但要忽略的标签。也就是说,如果有人搜索单词&#34; foo&#34;,那么包含<p class='foo'>的文档就不会出现。另一方面,我希望将完整内容(包括标记)存储在Elasticsearch中。

我可以在我的logstash .config文件中做些什么来让Elasticsearch&#34;意识到&#34;这是HTML内容吗?

0 个答案:

没有答案