在熊猫中找到与每个类别最相关的列

时间:2019-10-11 10:12:45

标签: python pandas data-science

以下问题(this one)对我没有帮助。

我的数据集很大,我想知道哪些列与目标变量最相关。我知道,就我而言,对于目标变量中的每个类,不同的列都会产生不同的影响。

在该问题中,建议的答案使用LDA推荐。据我了解,它看起来像一个普通的分类算法,所以这不是我所需要的

我是什么样的人

In : 
    magic_function("name_of_target_variable_1")
Out :
    ["really_important_column_a", "really_important_column_b" ...]
In : 
    magic_function("name_of_target_variable_2")
Out :
    ["really_important_column_a", "really_important_column_f" ...]

如何获得此结果?首先有办法吗?

2 个答案:

答案 0 :(得分:0)

您可以为每个目标变量训练RandomForest classifier(如果目标变量是数字,则训练RandomForest regressor

然后,您可以在预测目标变量时检查每个功能的importance

答案 1 :(得分:0)

首先有办法吗?

OP想要做的事情(功能选择)实际上是一个令人难以置信的漫长话题,那里没有官方的适当答案,但是有许多可能的方法。

所以,是的,可以做到,没有,没有正式的方法可以做到。有许多“只需尝试一下并检查结果”即可。这不是StackOverflow的问题