涌入指数和高基数

时间:2017-11-30 20:04:51

标签: influxdb

我有一个高吞吐量系统。我发现由于许多事件具有相同的时间戳,因此涌入覆盖了许多事件。

因此我尝试从毫秒移动到纳秒,但由于我使用的是JAVA,我无法获得基于纳秒的真实时钟。

我想出了这个解决方案:
我创建了一个名为" descriptor"的新标签。对于每个事件,我在1-1000之间插入一个随机数。这些值是固定的,并且具有相同随机描述符值的相同时间戳的概率非常低。这解决了我的问题,我可以看到所有的事件。

我的问题是,使用这1000个值是否可以 - 因为这是一个标签,我知道它会弄乱我的索引和我的表现?

问候,Ido

1 个答案:

答案 0 :(得分:0)

随机"描述符"与其他事件标签完全不相关,在最坏的情况下,这可能会使您的系列基数增加3个数量级。这是因为每个现有系列(s)可能会拆分为最多1000个唯一系列(s,1),(s,2),...,(s,1000)

这有多大问题取决于您现有的系列基数。从10增加到10,000可能没什么大不了的。从100,000增加到100,000,000更有可能成为一个问题。您需要进行实验和剖析才能看到。

另一种方法可能是编码"描述符"在时间戳的微秒和/或纳秒组件中(因为你还没有使用它们)使它们成为唯一的。