如何在elasticsearch中进行日期舍入工作,以及它如何影响缓存流失?

时间:2014-12-12 02:45:51

标签: date caching curl optimization elasticsearch

所以,我正在浏览这个幻灯片显示优化弹性搜索查询,这看起来非常有用:

https://speakerdeck.com/elasticsearch/query-optimization-go-more-faster-better

它提到了通过使用类似的东西来避免缓存流失:

curl -XGET 'localhost:9200/_all/_search?search_type=count' -d '
{
    "query" : {
        "filtered" : {
              "filter" : {
                "bool" : {
                    "must" : [
                        {"range" : {
                            "@timestamp" : {
                                "gte" : "now/d"
                            }
                        }},
                        {"range" : {
                            "@timestamp" : {
                                "gte" : "now-1h"
                            },
                            "_cache" : false
                        }}
                    ]
                }
              }

        }
    }
}'

所以,问题是:日期舍入是如何工作的?

具体来说,现在/ d实际上指的是什么?这仅仅等于"今天"?但是,这是否意味着"今天根据我的本地计算机运行查询"或者"今天根据运行弹性搜索集群的计算机的时区"?我想很难区分,因为大多数人都在localhost上运行,或者他们运行弹性搜索集群的计算机很可能设置在同一时区......但我想这是一个小问题。

我猜,我看到这个过滤后的查询意味着:"搜索所有索引 - 它必须是从今天起,并且必须是在过去一小时内。"我可以看到 - "它必须来自今天"是一个应该被缓存的过滤器,因为它可以被重用。 elasticsearch github问题在https://github.com/elasticsearch/elasticsearch/issues/4947

提到了这一点

我看到它如何帮助避免缓存流失,但我实际上认为如果它小于或等于而不是大于或等于如下:

"lte" : "now/d"

也就是说"搜索所有索引 - 它必须是从今天或更早,并且必须是在过去一小时内。"在我看来,这是有道理的,因为它使今天或更早的"一个恒定的终点,允许您从现在静止的时间点向后搜索。这意味着您可以使用这种类型的过滤器组合来避免过去的缓存流失和搜索,而不是仅限于从"今天"中搜索内容。但是,我不确定lte版本是否仍然有助于避免缓存流失。任何人都可以澄清这个问题吗?

1 个答案:

答案 0 :(得分:1)

据我了解,因为日期以毫秒为单位,我们必须对它们进行舍入以使它们更通用,并使得更有可能在某些其他查询中重用过滤结果。我不知道它将在什么时间回合。但这应该不重要。它唯一重要的是它可以通过缓存重复使用它。

由于我们应用过滤器的顺序很重要,我们越早缩小记录越好。理想情况下,我们的第一个过滤器是缓存过滤器,并尽可能过滤掉。这就是为什么如果我们想要从最后一小时获取数据,过滤除了今天的所有内容都是有道理的。

让我们考虑你提到的第一个条件:

record_datetime >= now/d && record_datetime >= now-1h

似乎第一个条件是多余的,可以在没有任何副作用的情况下删除。但弹性搜索会从中受益,因为它可以重用已存储的缓存过滤器数据,并在更小的集合上执行第二个过滤器。请记住,如果要颠倒过滤器的顺序,我们将失去这种冗余的所有好处。

正如您所提到的,在深入了解过去时也可以使用它。您可以使用过滤器在某天之后抛弃所有内容。例如,如果我们需要今年第一周的数据,我们可以做一些事情:

record_datetime >= 01.01.2014 && record_datetime <= 05.01.2014 && other_filters

其他过滤器不必与时间相关。如果此操作将多次执行,则other_filters将完全执行,其余时间将使用缓存的bitsets

这种方法可以用于任何数值数据。例如,在通过精确的纬度和经度过滤之前,先通过某些粗网格或城市进行过滤。我们希望在查询之间使过滤器尽可能相似。

不确定如果我足够清楚:) 有一篇关于使用过滤器改善ES性能的文章很好,并且解释了您要求的确切技术here。还有关于过滤器顺序和缓存的ES官方文档here