使用R的数据集的特征选择

时间:2016-06-23 03:23:03

标签: r feature-selection

我有一个维度为1722x1226的数据集。在1226个属性中,只有3个属性具有大于0.12的方差(即接近零的方差分数)。这是否意味着所有其他属性或变量都是重复的?

我应该只使用这3个属性(方差> 0.12的那些)来构建我的模型吗?

有没有更好的方法来进行特征选择?

1 个答案:

答案 0 :(得分:1)

<强> 1。这是否意味着所有其他属性或变量都是重复的?

如果一个属性没有方差并不意味着它是重复的,那就意味着它是一个常数。你表示他们中的大多数都有一些方差,但很少。所以它们并不是严格不变的,但是几乎没有变化,它们不太可能具有预测性。

<强> 2。我应该只使用那3个属性(方差> 0.12)来构建我的模型吗?

很有可能,是的。但是,您必须考虑主题的细节 - 依赖和独立变量是什么,以及如何编码变量以做出明智的决定,包括哪些变量。

此外,测试多个规格,比较交叉验证性能并注意覆盖超过前3个时,可能是明智的。

第3。有没有更好的方法来进行特征选择?

除了您已经在做的事情之外,您还可以执行许多更复杂的分析。这是一个非常广泛的话题,所以我会指示你here给你一个提及其中一些的资源。

请注意,除了功能选择之外,您还可以从功能工程中受益。我确信来自1,200个变量中的一些变量的信息可以被设计成更少数量的具有更高方差的预测变量。

另外,请记住,如果你的所有1,226列都有很高的差异,你仍然不应该包括所有这些,因为你的模型会受到很少的自由度。您希望观察(行)与预测变量(变量)的比率较高。