以下问题(this one)对我没有帮助。
我的数据集很大,我想知道哪些列与目标变量最相关。我知道,就我而言,对于目标变量中的每个类,不同的列都会产生不同的影响。
在该问题中,建议的答案使用LDA推荐。据我了解,它看起来像一个普通的分类算法,所以这不是我所需要的
我是什么样的人
In :
magic_function("name_of_target_variable_1")
Out :
["really_important_column_a", "really_important_column_b" ...]
In :
magic_function("name_of_target_variable_2")
Out :
["really_important_column_a", "really_important_column_f" ...]
如何获得此结果?首先有办法吗?
答案 0 :(得分:0)
您可以为每个目标变量训练RandomForest classifier(如果目标变量是数字,则训练RandomForest regressor。
然后,您可以在预测目标变量时检查每个功能的importance。
答案 1 :(得分:0)
首先有办法吗?
OP想要做的事情(功能选择)实际上是一个令人难以置信的漫长话题,那里没有官方的适当答案,但是有许多可能的方法。
所以,是的,可以做到,没有,没有正式的方法可以做到。有许多“只需尝试一下并检查结果”即可。这不是StackOverflow的问题