决定内核PCA中的内核参数类型

时间:2018-04-19 19:09:15

标签: cluster-analysis pca unsupervised-learning dimensionality-reduction

我是机器学习的新手,我正在尝试使用k-means聚类进行无监督学习(即使我读到k-means对于分类数据也不能很好地工作)。我编码了我的分类变量并试图应用内核PCA ,因为我有一个分类特征(它是性别)。我注意到内核参数有几个值是' linear'' poly',' rbf',' sigmoid&#39 ;,'余弦'和'预先计算'

我在互联网上搜索但我无法找到关于这些的正确解释。我无法确定PCA和SVM上的内核使用情况是否相同。是否有人可以解释它们是什么,何时应该使用和/或如何为我们的数据集选择正确的?由于我们无法使用超过3个维度的数据集进行可视化,我们将如何确定其形状以选择正确的参数?部分代码仅用于显示参数的使用位置:

# Applying Kernel PCA 
from sklearn.decomposition import KernelPCA
kpca = KernelPCA(n_components = 2, kernel = 'linear')
X = kpca.fit_transform(X)

提前谢谢。

1 个答案:

答案 0 :(得分:0)

这些预定义内核都不支持混合数据。它们是矢量内核。

线性犬舍应该给出与非核心PCA相同的结果,只是慢很多。

除了使用内核之外,与SVM的关系不大。当你可以在监督的分类任务中进行超参数优化时,像rbf这样的内核会更有意义。由于选择这样的参数很难,除了玩具问题外,很难充分利用KernelPCA。