elasticsearch regexp不起作用

时间:2015-03-30 09:53:40

标签: regex elasticsearch

我需要在elasticsearch上创建一个regexp来过滤一些数据。 我过滤的字段是人的名字。数据并不总是格式良好(有时,没有名字,有时,姓氏后面跟着句号或逗号或'逗号+名字'或'点+名字'......)。 / p>

例如,使用“bouchard”我会得到以下匹配:

 "bouchard", "bouchard, m.", "bouchard, j.", "bouchard j.p.", "bouchard. j.p."

我还需要排除以相同的前缀开头的名字,例如“bouchardat”

我尝试了很多regexps,最后发现排除可能会产生更好的结果:

   "query" :  { "regexp" : {
                    "RECORDEDBY" : "bouchard([^a-z].*)"
    }}

这不起作用,因为它返回“bouchard,m。”,“bouchard,j。”,“bouchard jp”但不是“bouchard.jp”而不是“bouchard”

我使用+和。*尝试一些正则表达式但它们不起作用。

( "bouchard([^a-z].*.*)" "bouchard([^a-z]*+.*)")

为了说清楚,我想允许:

bouchard
bouchard, m.
bouchard, j.
bouchard j.p.
bouchard. j.p.

我想要排除

bouchardat

欢迎任何建议。

1 个答案:

答案 0 :(得分:1)

在这种情况下,如果没有“[a-z]”,“”或“{{等特殊字符,您可以使用conditional operator排除每个.后缀1}}'跟随你要找的词:

,

此正则表达式返回条件(必须有((bouchard)+?([ .,]+)[ ,.a-zA-Z]*)|(bouchard[^a-zA-Z]?) ):

[ .,]+

并忽略管道bouchard bouchard, m. bouchard, j. bouchard j.p. bouchard. j.p. 后面没有|的内容:

[ .,]+

Regex101