machine-learning - 机器学习 - 特征选择还是降维？ - Thinbug

机器学习 - 特征选择还是降维？

时间：2017-12-16 15:00:07

标签： machine-learning artificial-intelligence feature-selection dimensionality-reduction

我仍在探索机器学习的这个领域，虽然我知道特征选择和维度减少之间的区别，但我发现在理解何时进行特征选择或维度减少（或两者都有）的概念时遇到了一些困难在一起）。

假设我有一个包含大约40个特征的数据集，那么单独执行降维还是单独选择特征是不错的做法？或者是否应该采用两种方法的混合（即首先进行特征选择，然后减少维数 - 反之亦然）？

1 个答案:

答案 0 :(得分：0)

术语功能选择有点误导。它可以有两个含义：

通过整合领域知识来选择功能（这也涉及构建新功能）。

例如，当您将高度和重量作为要素时，在图像数据集中查找旋转不变点或将BMI创建为新要素。
根据某项措施仅保留高度重要的功能

这是降维过程的一个步骤。所谓的降维过程实际上涉及两个步骤：
- 通过更改基础将原始要素转换为新的（人工）要素。
  
  例如。 PCA通过找到一组正交特征来实现这一目的，以便沿每个轴的方差最大化。
- 仅保留最重要的（重要性由某些度量定义）特征导致上述步骤。这实际上是一个特征选择步骤。
  
  例如。在PCA中，这是通过仅保留前k个具有最高解释差异的特征来实现的。

至于上述（1）和（2）的顺序应该发生：我认为这是依赖于问题的。

如果有足够的领域知识来构建/选择功能以解决手头的问题，我们首先应该进行手动特征工程（加选择）。如果此特征工程/选择过程仍然会产生大量特征，那么可以进行所谓的降维，以找到一个子空间，该子空间可以表示具有更少数量的全新特征的数据，这些特征几乎没有任何意义。现实生活。

如果领域知识无法向数据集添加任何内容，那么只需减少维数就可以了，其中实际上包含特征选择步骤。

从广义上讲，我们可以认为特征选择实际上是降维的一个特例，其中原始数据集没有发生基础变化。