Question

我有一个数据集（df），它看起来像：

df

X24_TT  X35_FTT X55_FTT X70_FTT X85_TT  X86_FTT X90_FTT X96_FTT
  0       1        0       0      0        1       0      1
  1       0        0       1      1        1       0      1
  1       0        0       0      0        1       0      1
  0       1        0       0      0        0       1      1
  0       0        1       1      0        1       0      0
  1       0        0       0      0        0       0      0

我想只保留列总和大于20百分位的那些列，即

a）计算＆＃34; df＆＃34;中每列的colsum。即一组colsums

b）找出该colsums数组的第20百分位值

c）保留其colsum> gt的列。第20百分位值

如果我们计算＆＃34; df＆＃34;的第20百分位数。它变成了1。

因此，在新数据集（nm）中，只显示列总和大于1的那些列，即

nm

X24_TT  X35_FTT X70_FTT X86_FTT X96_FTT
  0        1       0       1      1
  1        0       1       1      1
  1        0       0       1      1
  0        1       0       0      1
  0        0       1       1      0
  1        0       0       0      0

请注意，列数很大，因此提供动态解决方案

保留列总和大于20百分位数的列

0 个答案: