我的数据框是这样的:其中px1,px2,... px99是占位符,并在数据框中显示为列。它具有类似5569,5282等的值,它们是要选择的真实特征。这些功能有数千种。我想过滤重要的功能。试图使用随机森林。我知道我可以从随机森林过滤Px,但是如何嵌入实际功能?我正在使用python。
px1 px2 px3 px4 px5 px6 px7 px8 px9 px10
5569 5282 93
5569 5280 93 9904
5569 5282 93 93 3893 8872 3897 9904
5569 5280 5551 93 93 3995 8607
5569 5280 93 8867
5282 5569 93 9904 93
答案 0 :(得分:0)
您不需要超过2列,因此年表无关紧要,所以
df = pds.concat([df[['px1',col]].rename(columns={col:'px2'}) for col in df.columns],\
axis=0,join='outer').dropna()
现在,因为你只考虑第一个变量,你必须看到:
for label,dist in df.groupby('px1')['px2']:
dist.hist(bins=len(dist.unique()),label=label)