我有一个非常高的基数时间序列数据库。假设我的时间序列数据库(A,B,C和D)中有4列,其基数分别为(10,100,50,10,000,000)。因此,我总共有一个(10 * 100 * 50 * 10,000,000)基数的数据库。我想知道以下问题:
答案 0 :(得分:1)
我假设您要使用某种监视系统,其中在发生某些事件时会触发该系统以警告某些服务权吗?就像异常检测系统一样。
所以,我要问的是,您是要使用监视工具,还是为了报告功能?还是使用时间序列进行机器学习?
我将以面向机器学习的方式回答这个问题。很抱歉,这不是您的意图。
==>在ML中,如果需要使用usem作为伪变量,则通常通过装箱来处理具有高基数的功能。换句话说,对于功能的每个级别,都会创建一个新的二进制列。 (例如:http代码:200、200、201、404、409、500 ==> 2xx,3xx,4xx)。
==>但是,如果您使用基于树的算法来处理高基数,则不需要虚拟变量来处理基数。
可以使用更多方法,但是我需要知道这是否是您要寻找的内容,以便我加深答案。