我想在Elasticsearch数据中搜索每个组的最大和。例如:
数据是:
id | gId | cost
----|-----|------
1 | 1 | 20
2 | 1 | 15
3 | 2 | 30
4 | 1 | 30 *
5 | 2 | 40 *
6 | 1 | 20
7 | 2 | 30
8 | 3 | 45 *
9 | 1 | 10
我使用 sum_bucket 对每个组的最大值进行求和。这是我的查询:
{
"aggs": {
"T1":{
"terms": {
"field": "gId",
"size":3
},
"aggs":{
"MAX_COST":{
"max": {
"field": "cost"
}
}
}
},
"T2":{
"sum_bucket": {
"buckets_path": "T1>MAX_COST"
}
}
},
"size": 0
}
查询响应为
"T1": {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets": [ |
{ |
"key": 1, |
"doc_count": 5, |
"MAX": { |
"value": 30 |
} |
}, |
{ | How can ignore this part to return
"key": 2, | from elasticsearch query response
"doc_count": 3, |
"MAX": { |
"value": 40 |
} |
}, |
{ |
"key": 3, |
"doc_count": 1, |
"MAX": { |
"value": 45 |
} |
} |
]
},
"T2": {
"value": 115
}
T2.value是所需的结果。但是我想在查询结果T1.buckets中忽略网络性能问题,因为我的数据非常大。通过将T1.terms.size设置为特定数字,可以仅将T2.value结果中结果效果的最高编号。如何写出我所查询的结果而忽略T1.buckets或对每个组的最大和问题求和更好的查询?
答案 0 :(得分:0)
我不熟悉在汇总时对添加的字段执行此操作的“正式”方式,但是您可以使用Post filter选项“修改”。
假设您可以将“ exists”用作术语,则添加一个可以像{“ exists”:{“ field”:“ value”}}一样区分T1和T2的术语。
答案 1 :(得分:0)
您可以使用filter_path
仅返回响应的一部分
var searchResponse = client.Search<Document>(s => s
.FilterPath(new[] { "T2.value" }) // paths to include in response
.Aggregations(a => a
// ... rest of aggs here
)
);
请记住,将filter_path
与NEST一起使用有时会导致内部序列化程序无法反序列化响应,因为该结构是意外的。在这种情况下,您可以使用暴露在高级客户端上的低级客户端来处理响应
var searchDescriptor = new SearchDescriptor<Document>()
.Aggregations(a => a
// ... rest of aggs here
);
var searchResponse = client.LowLevel.Search<StringResponse>(
"index",
"type",
PostData.Serializable(searchDescriptor),
new SearchRequestParameters
{
QueryString = new Dictionary<string, object>
{
["filter_path"] = "T2.value"
}
});
// do something with JSON string response
var json = searchResponse.Body;