使用空白标记生成器时删除逗号

时间:2014-02-23 12:39:11

标签: elasticsearch

当使用空格标记器时,文本就像“那里,他就是”。将分裂为 “那里”,“他”和“是”。当然,我想删除标准标记器自动删除的那些标点符号。

我的问题是:

  1. 如何修剪这些标点符号? (在弹性搜索设置中,如添加另一个标记过滤器或charfilter)
  2. 我需要使用空格标记器,主要是因为我不希望将带连字符的单词拆分。有没有办法在仍然使用标准标记器时实现这一点?

3 个答案:

答案 0 :(得分:1)

您可以使用char过滤器删除“,”。 Char Filter

答案 1 :(得分:1)

您可以使用:

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-word-delimiter-tokenfilter.html

我已经安装的一个片段̶=̶>̶HTTP:̶/̶/̶e̶s̶.̶s̶u̶b̶i̶t̶o̶l̶a̶b̶s̶.̶c̶o̶m̶/̶#̶/̶t̶e̶s̶t̶r̶/̶m̶6̶m̶f̶b̶4̶a̶h̶i̶m̶8̶6̶w̶2̶9̶

答案 2 :(得分:-2)

您可以使用split()删除所有标点符号

String str ="there, he is.";
String[] ss = str.split("[ ,.]");   
for (String string : ss) {
System.out.println(string);
}

试试这个 这将有助于你