处理时间序列数据库中一列的高基数

时间:2018-11-19 18:34:57

标签: time-series monitor prometheus

我有一个非常高的基数时间序列数据库。假设我的时间序列数据库(A,B,C和D)中有4列,其基数分别为(10,100,50,10,000,000)。因此,我总共有一个(10 * 100 * 50 * 10,000,000)基数的数据库。我想知道以下问题:

  1. 我应使用哪个警报系统监视高基数 (例如最近一小时的数据中有500万基数)。
  2. 如果时间序列数据库中有1列,则最佳处理方式是什么 基数很高?

1 个答案:

答案 0 :(得分:1)

我假设您要使用某种监视系统,其中在发生某些事件时会触发该系统以警告某些服务权吗?就像异常检测系统一样。

所以,我要问的是,您是要使用监视工具,还是为了报告功能?还是使用时间序列进行机器学习?

我将以面向机器学习的方式回答这个问题。很抱歉,这不是您的意图。

==>在ML中,如果需要使用usem作为伪变量,则通常通过装箱来处理具有高基数的功能。换句话说,对于功能的每个级别,都会创建一个新的二进制列。 (例如:http代码:200、200、201、404、409、500 ==> 2xx,3xx,4xx)。

==>但是,如果您使用基于树的算法来处理高基数,则不需要虚拟变量来处理基数。

可以使用更多方法,但是我需要知道这是否是您要寻找的内容,以便我加深答案。