Pandas中是否有用于用于聚类的非监督特征选择的设施?
例如,考虑我们正在使用KMeans算法,我们需要找到重要的功能。
我检查了https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html方差阈值,但是,我想知道是否为此使用任何算法或过程?
提前感谢专家的建议。
答案 0 :(得分:0)
除聚类算法外,还有一些不同的技术降维和主成分分析(PCA)以减少特征集。
这些技术通过从原始特征的线性组合中产生新的合成特征,然后丢弃次要的特征,来降低尺寸。
特征选择使用方差和相关性来提取特征的最佳子集,而降维和PCA使用特征值和特征向量从现有特征中重新创建新特征。
仔细阅读它们,可能会有用。
[编辑]
功能选择方法: 制作关联图,删除任何高度关联的特征。再次制作相关图,直到没有两个特征显示出高相关性为止。两个高度相关的变量导致多重共线性问题。