我有一个包含100多个列的大型数据集,与目标相比,我想从中自动删除低相关性特征,因此我可以排除零重要性特征。
我在Jupyter Notebook上运行了Python 3.5,并且已经删除了高度相关的共同功能。
到目前为止,我已经尝试过类似的事情:
corr = train.corr().abs()
columns = np.full((corr.shape[0],), True, dtype=bool)
for i in range(corr.shape[0]):
# Here I want compare a feature to my target
if corr.iloc[i,'Target'] >= 0.2:
if columns[i]:
columns[i] = False
selected_columns = train.columns[columns]
train = train[selected_columns]
对代码的帮助将不胜感激。 谢谢。