参见scikit-learn歧管学习方法中保留的方差

时间:2016-07-21 15:50:26

标签: python scikit-learn variance

我有一个图像数据集,我希望运行非线性降维。要确定要使用的输出维数,我需要能够找到保留的方差(或解释方差,我相信它们是相似的)。 Scikit-learn似乎是迄今为止流形学习算法的最佳选择,但我无法看到任何获得保留方差统计量的方法。我缺少scikit-learn API的一部分,还是计算保留方差的简单方法?

1 个答案:

答案 0 :(得分:0)

我认为没有一种干净的方法可以推导出大多数非线性维度技术的“解释方差”,就像对PCA一样。 对于PCA来说,它是微不足道的:你只是在特征分解(即它的特征值)中取主成分的权重,并将用于线性维数减少的权重加总。 当然,如果保留所有特征向量,那么你将“解释”100%的方差(即完美地重建协方差矩阵)。

现在,人们可以尝试以类似的方式为其他技术定义解释方差的概念,但它可能没有相同的含义。 例如,一些降维方法可能会积极地尝试将更多不同点分开,最终会出现比我们开始时更多的差异。或者更少,如果它选择将一些点紧密地聚集在一起。

然而,在许多非线性降维技术中,还有其他措施可以给出“适合度”的概念。 例如,在scikit-learn中,isomap has a reconstruction errortsne can return its KL-divergenceMDS can return the reconstruction stress