机器学习功能排名/ Java回归评分

时间:2015-12-22 05:58:53

标签: machine-learning regression weka feature-selection

对于回归数据集,Java中是否有可用的特征评分方法,其中类值是连续数而不是二进制数?

ML-Lib feature scoring似乎只适用于分类数据集。

1 个答案:

答案 0 :(得分:1)

这在很大程度上取决于您的回归算法。对于线性分类器,基于内核的回归算法的良好特性可能非常糟糕。 (https://en.wikipedia.org/wiki/Feature_selection) 您似乎瞄准了"过滤器方法"。在许多回归设置中运行良好的是 Pearson Correlation 。这也可以在ML-Lib中找到。

但是,您应该考虑不添加K个顶部相关的功能,但

  1. 避免选择高度相关的功能对。因此,您必须在所有功能对之间建立相关矩阵。
  2. 选择顶部特征,构建回归模型,测量模型的误差,测量误差与剩余特征之间的相关性。这将贪婪地选择最佳功能
  3. 选择功能后,应考虑进行灵敏度分析。这样,为所有要素构建回归模型,并为已删除一个要素的所有要素集构建回归模型。如果删除没有产生重大影响,您可以将其删除。