如何选择类相关功能?

时间:2019-04-28 14:27:08

标签: machine-learning computer-vision classification feature-selection

假设我有一个数据集,其中包含两个类和超过 50,000个功能。我发现的大多数作品都试图选择区分两个类别的特征。我们称这些选定的功能为最重要的功能。但是我想知道的那些方法不能定义哪些功能与哪个类最相关。例如,

              f1    f2    f3 ....... f50000      class
sample 1:     .5    .4     23......... .45         1
sample 2:     .2    .56     .5......... .45        2
sample 3:     .4    56     .23......... .45        2
sample 4:     .3    .45     76......... .45        1

在这里,f1 =功能1,f2 = feature2等。

假设,某种程度上,我知道f1, f2, f3, f45, f344class 1相关,而f4, f5, f6, f90, f99class 2相关。其他功能与这些类无关。所以输出是

class1: f1, f2,f3,f45,f344
class2: f4,f5,f6,f90,f99

算法是什么? 如果有人给我任何论文(深度学习或他人)或参考文献,对我来说将非常有帮助。预先感谢。

1 个答案:

答案 0 :(得分:0)

有很多方法可以检测功能的重要性。一种简单的方法是将具有低方差的特征截断。如果您想使用this scikit article,请使用它们的实现。

另一个常见的原因是使用L1 / L2正则化惩罚要素数量。这样可以防止算法使用所有权重。相同的scikit文章中有一个实现。我刚刚发现this github post,它很简短地解释了L2正则化与逻辑回归的结合。