聚类的特征选择

时间:2019-12-23 07:05:31

标签: python machine-learning cluster-analysis feature-selection

Pandas中是否有用于用于聚类的非监督特征选择的设施?

例如,考虑我们正在使用KMeans算法,我们需要找到重要的功能。

  • 输入应为数据集,即簇数
  • 输出应该是所选要素的子集。

我检查了https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html方差阈值,但是,我想知道是否为此使用任何算法或过程?

提前感谢专家的建议。

1 个答案:

答案 0 :(得分:0)

除聚类算法外,还有一些不同的技术降维主成分分析(PCA)以减少特征集。

这些技术通过从原始特征的线性组合中产生新的合成特征,然后丢弃次要的特征,来降低尺寸。

特征选择使用方差和相关性来提取特征的最佳子集,而降维和PCA使用特征值和特征向量从现有特征中重新创建新特征。

仔细阅读它们,可能会有用。

[编辑]

功能选择方法: 制作关联图,删除任何高度关联的特征。再次制作相关图,直到没有两个特征显示出高相关性为止。两个高度相关的变量导致多重共线性问题。

多重共线性:https://stats.stackexchange.com/questions/1149/is-there-an-intuitive-explanation-why-multicollinearity-is-a-problem-in-linear-r