我有一个数据集(df),它看起来像:
df
X24_TT X35_FTT X55_FTT X70_FTT X85_TT X86_FTT X90_FTT X96_FTT
0 1 0 0 0 1 0 1
1 0 0 1 1 1 0 1
1 0 0 0 0 1 0 1
0 1 0 0 0 0 1 1
0 0 1 1 0 1 0 0
1 0 0 0 0 0 0 0
我想只保留列总和大于20百分位的那些列,即
a)计算" df"中每列的colsum。即一组colsums
b)找出该colsums数组的第20百分位值
c)保留其colsum> gt的列。第20百分位值
如果我们计算" df"的第20百分位数。它变成了1。
因此,在新数据集(nm)中,只显示列总和大于1的那些列,即
nm
X24_TT X35_FTT X70_FTT X86_FTT X96_FTT
0 1 0 1 1
1 0 1 1 1
1 0 0 1 1
0 1 0 0 1
0 0 1 1 0
1 0 0 0 0
请注意,列数很大,因此提供动态解决方案