特征选择,聚类,降维算法之间的差异

时间:2015-10-27 15:26:16

标签: machine-learning cluster-analysis pca feature-selection

有人能指出特征选择和聚类以及降维算法之间的区别吗?

特征选择算法:允许找到最能代表数据的主要变量或指示类的最佳参数 例如:gbm / lasso

聚类有助于我们指出哪些变量集群明确定义了输出

这与降维算法不一样吗? 特征选择+聚类不是与降维算法相同吗?

1 个答案:

答案 0 :(得分:3)

Feature Selection:

  

在机器学习和统计中,功能选择也称为   变量选择,属性选择或变量子集选择,   是选择相关特征子集的过程(变量,   用于模型构建的预测器。

Clustering:

  

聚类分析或聚类是分组一组的任务   对象以同一组中的对象(称为   群集)彼此更相似(在某种意义上或另一种意义上)   而不是其他群体(群集)。

Dimensionality Reduction:

  

在机器学习和统计学中,维数减少或   降维是减少随机数的过程   正在考虑的变量,可以分为特征   选择和特征提取。

当您有许多功能并想要使用其中一些功能时,您可以应用功能选择(即mRMR)。因此,这意味着您已应用降维。

然而,聚类是将一组观察分配到子集(称为聚类)中,以便同一聚类中的观察在某些聚类中相似 感。聚类是一种无监督学习的方法,也是许多领域中使用的统计数据分析的常用技术(检查Clustering in Machine Learning)。如果要根据功能对不同的数据点进行分组(聚类),可以使用/不使用降维来应用聚类(即k-means)。