假设我有一个数据集,其中包含两个类和超过 50,000个功能。我发现的大多数作品都试图选择区分两个类别的特征。我们称这些选定的功能为最重要的功能。但是我想知道的那些方法不能定义哪些功能与哪个类最相关。例如,
f1 f2 f3 ....... f50000 class
sample 1: .5 .4 23......... .45 1
sample 2: .2 .56 .5......... .45 2
sample 3: .4 56 .23......... .45 2
sample 4: .3 .45 76......... .45 1
在这里,f1 =功能1,f2 = feature2等。
假设,某种程度上,我知道f1, f2, f3, f45, f344
与class 1
相关,而f4, f5, f6, f90, f99
与class 2
相关。其他功能与这些类无关。所以输出是
class1: f1, f2,f3,f45,f344
class2: f4,f5,f6,f90,f99
算法是什么? 如果有人给我任何论文(深度学习或他人)或参考文献,对我来说将非常有帮助。预先感谢。
答案 0 :(得分:0)
有很多方法可以检测功能的重要性。一种简单的方法是将具有低方差的特征截断。如果您想使用this scikit article,请使用它们的实现。
另一个常见的原因是使用L1 / L2正则化惩罚要素数量。这样可以防止算法使用所有权重。相同的scikit文章中有一个实现。我刚刚发现this github post,它很简短地解释了L2正则化与逻辑回归的结合。