我有一个Elastic Search服务器设置,用于存储要用于公司搜索的公司名称,其工作方式是:
在公司名称中,空格和点将被删除并存储在ES中名为trimmedcompanyname的字段中,
{
"companyName" : "RECKON INFOSYSTEM PRIVATE LIMITED",
"trimmedCompanyName" : "reckoninfosystemprivatelimited",
"id" : "1079"
}
现在,当搜索进入我的服务器时,我会删除空格和点,然后向ES服务器发出请求。查询格式的ES请求为:
GET /_search
{
"from": 0,"size": 100,
"query": {
"wildcard": {
"trimmedCompanyName.keyword": {
"value": "*infosys*"
}
}
}
}
但是我大约有600家名称为infosys的公司,它们将以删除的空格存储。因此,ES向我返回了100家公司,但在这100家公司中,infosys在第二个单词的开头或第三个单词的开头,但是我希望结果中包括在第一个单词然后在第二个单词中包含infosys的公司,依此类推。
我可以想到的一个解决方案是使用通配符查询infosys*
触发两个ES请求,第二个查询*infosys*
合并两个结果,删除重复项并返回响应,但是由于该请求具有与分页一起工作,因此触发两个请求可能会出错,有人可以帮我吗
答案 0 :(得分:1)
首先,在语料库数据方面,我们在ES中使用的传统相似性算法或查询在计算相关性时不会考虑术语的位置。
对于基于位置的查询,您需要使用Span Queries
我已经能够提出以下解决方案,该解决方案适用于您的情况。请注意,我已经对字段companyName
使用了查询,并且假定它正在使用Standard Analyzer。
下面是映射,示例文档,查询和响应,如下所示:
PUT my_company
{
"mappings": {
"properties": {
"companyName":{
"type":"text"
}
}
}
}
POST my_company/_doc/1
{
"companyName": "reckon infosystem private limited"
}
POST my_company/_doc/2
{
"companyName": "infosys"
}
POST my_company/_doc/3
{
"companyName": "telecom services infosystem private limited"
}
POST my_company/_doc/4
{
"companyName":"infosystems technological solution"
}
POST <your_index_name>/_search
{
"query": {
"bool": {
"must": [
{
"span_multi": {
"match": {
"wildcard": {
"companyName": "infosys*"
}
}
}
}
]
}
}
}
请注意,我在Span multi-term查询中使用了通配符查询。
您可能想知道为什么我没有使用字段trimmedCompanyName
,这是因为,查看其映射(即使其text
类型为standard analyzer
)其中的值或内容都被视为一个术语,并以这种方式存储在倒排索引中。
{
"took" : 4,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 4,
"relation" : "eq"
},
"max_score" : 4.3264027,
"hits" : [
{
"_index" : "my_company",
"_type" : "_doc",
"_id" : "2",
"_score" : 4.3264027,
"_source" : {
"companyName" : "infosys"
}
},
{
"_index" : "my_company",
"_type" : "_doc",
"_id" : "4",
"_score" : 3.2018504,
"_source" : {
"companyName" : "infosystems technological solution"
}
},
{
"_index" : "my_company",
"_type" : "_doc",
"_id" : "1",
"_score" : 2.8335867,
"_source" : {
"companyName" : "reckon infosystem private limited"
}
},
{
"_index" : "my_company",
"_type" : "_doc",
"_id" : "3",
"_score" : 2.5412967,
"_source" : {
"companyName" : "telecom services infosystem private limited"
}
}
]
}
}
让我知道这是否有帮助!