聚类缺失值指示值以捕获缺失值模式

时间:2014-07-19 13:13:35

标签: python pandas data-processing

我正在使用Pandas使用Python进行一些数据准备,我正在使用一个包含大约80个缺失值的变量的数据集,我想捕获任何缺失模式以减少我所拥有的缺失值指标的数量我无法找到任何好的策略来做到这一点。这是我得到的一个例子:

MISS_1 MISS_2 MISS_3 MISS_4 MVP1 MVP2 MVP3 MISS_STR
     0      0      1      0    0    0    1     0010
     1      0      1      0    1    0    0     1010
     1      1      1      1    0    1    0     1111
     1      1      1      1    0    1    0     1110
     1      0      1      0    1    0    0     1010
     0      0      1      0    0    0    1     0010
     0      0      1      0    0    0    1     0010
     0      0      1      0    0    0    1     0010
     1      0      1      0    1    0    0     1010

我尝试过的一件事是创建一个字符串变量,它连接所有缺失的值指示变量,例如' MISS_STR',不幸的是,这个变量中的唯一值的数量大约是2000.而且,我知道我我缺少可能有用的模式,因为如果Variable_1和Variable_2之间存在模式,并且Variable_3和Variable_4完全随机丢失,那么将它们连接为字符串将不会捕获Variable_1和Variable_2之间的模式。有没有更好的方法呢?

0 个答案:

没有答案