Question

以下问题（this one）对我没有帮助。

我的数据集很大，我想知道哪些列与目标变量最相关。我知道，就我而言，对于目标变量中的每个类，不同的列都会产生不同的影响。

在该问题中，建议的答案使用LDA推荐。据我了解，它看起来像一个普通的分类算法，所以这不是我所需要的

我是什么样的人

In : 
    magic_function("name_of_target_variable_1")
Out :
    ["really_important_column_a", "really_important_column_b" ...]
In : 
    magic_function("name_of_target_variable_2")
Out :
    ["really_important_column_a", "really_important_column_f" ...]

如何获得此结果？首先有办法吗？

Answer 1

您可以为每个目标变量训练RandomForest classifier（如果目标变量是数字，则训练RandomForest regressor。

然后，您可以在预测目标变量时检查每个功能的importance。

Answer 2

首先有办法吗？

OP想要做的事情（功能选择）实际上是一个令人难以置信的漫长话题，那里没有官方的适当答案，但是有许多可能的方法。

所以，是的，可以做到，没有，没有正式的方法可以做到。有许多“只需尝试一下并检查结果”即可。这不是StackOverflow的问题

在熊猫中找到与每个类别最相关的列

2 个答案: