朋友们,我想在我的网站上设一个搜索栏。我有成千上万的公司文章。当我运行此代码时:
GET articles/_search
{
"query": {
"bool": {
"must": [
{
"multi_match": {
"query": "assistant",
"fields": ["title"]
}
}
]
}
},
"size": 0,
"aggs": {
"by_company": {
"terms": {
"field": "company.keyword",
"size": 10
}
}
}
}
结果是:
"aggregations": {
"by_company": {
"doc_count_error_upper_bound": 5,
"sum_other_doc_count": 409,
"buckets": [
{
"key": "University of Miami",
"doc_count": 6
},
{
"key": "Brigham & Women's Hospital(BWH)",
"doc_count": 4
},
所以现在我想过滤迈阿密大学的文章,所以我运行以下查询:
GET indeed_psql/job/_search
{
"query": {
"bool": {
"must": [
{
"multi_match": {
"query": "assistant",
"fields": ["title"]
}
}
],
"filter": {
"term": {
"company.keyword": "University of Miami"
}
}
}
},
"size": 0,
"aggs": {
"by_company": {
"terms": {
"field": "company.keyword",
"size": 10
}
}
}
}
但现在的结果是:
"aggregations": {
"by_company": {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets": [
{
"key": "University of Miami",
"doc_count": 7
}
]
}
为什么在前一次聚合中突然有7个是6?其他大学过滤器也会发生这种情况。我究竟做错了什么 ?我没有使用标准的tokenizer,而是使用了english_stemmer,english_stopwords,english_keywords。谢谢你的帮助。
答案 0 :(得分:1)
您的第一个查询文档很可能是错误的。在您的第一个回复中," doc_count_error_upper_bound"是5,这意味着返回聚合中的某些术语不会作为每个基础查询分片中的最高结果出现。文件数量总是太低而不是太高,因为它可能已被错过"在查询前N个键的分片的过程中。
你有多少个碎片?例如,如果有3个分片,并且您的聚合大小为3,并且您的文档分布是这样的:
Shard 1 Shard 2 Shard 3 3 BYU 3 UMiami 3 UMiami 2 UMich 2 BWH 2 UMich 2 MGH 2 UMich 1 BWH 1 UMiami 1 MGH 1 BYU
每个分片的最终前三项将合并到:
6 UMiami // returned 6 UMich // returned 3 BWH // returned 3 BYU 2 MGH
从中只返回前三个结果。几乎所有这些钥匙都被低估了。
在这种情况下,您可以看到Shard 1中的UMiami文档不会考虑它,因为它超出了3的深度。但如果您过滤到仅查看UMiami,则必须撤回任何关联的文档。每个碎片并最终得到准确的计数。
您可以使用shard_size
参数,以便Elasticsearch更深入地了解每个分片,也可以获得更近似的计数。但是考虑到这个方面总共有7个文档,它可能只在你的一个分片上出现过一次,所以很难在顶层聚合中显示它而不抓取所有的该碎片的文件。
您可以阅读有关计数近似和错误推导的更多信息here - tldr,Elasticsearch根据每个单独分片中的顶级聚合来猜测该方面的文档总数。