Question

我正在使用Sklearn和GPflow进行PCA分析。我注意到两个库返回的输出都不匹配。

请参见下面的示例代码片段-

import numpy as np
from gpflow.models import PCA_reduce
from sklearn.decomposition import PCA

X = np.random.random((100, 10))

for n in range(1, 6):
    X1 = PCA(n_components=n).fit_transform(X)
    X2 = PCA_reduce(X, n)
    print('[n=%d] allclose=%s' % (n, np.allclose(X1, X2)))

下面是输出-

[n=1] allclose=True
[n=2] allclose=False
[n=3] allclose=False
[n=4] allclose=False
[n=5] allclose=False

仅当主成分数为1时才匹配。为什么这样的行为？

Answer 1

这里有两个不同的问题：

两种方法的特征值顺序相反。在sklearn实现中，特征向量通过减小其特征值的大小进行排序，而在gpflow实现中，它们以增大的大小进行排序。特别是，您应该将PCA(n).fit_transform(X)与PCA_reduce(X, n)[:, ::-1]进行比较。当然，这也解释了为什么只使用一个组件就能得到期望的结果。
但是，这本身并不足够：如果$ v $是具有给定特征值的长度为1的特征向量，那么$ -v $也是如此，因此您不能简单地使用np.allclose确定结果是否一致；您需要考虑潜在的逆转。因此，相反，您可以使用类似a = np.all(np.isclose(X1, X2), 0)的方法来直接比较向量，b = np.all(np.isclose(X1, -X2), 0)（注意减号）可以在X2中的所有向量都反转后比较它们。 a | b成为他们同意逆转的条件。最后，np.all(a | b)将检查每个特征向量是否成立。

实际上，对测试的以下修改显示了所有真实情况：

In [74]: for n in range(1, 6):
    ...:     X1 = PCA(n_components=n).fit_transform(X)
    ...:     X2 = PCA_reduce(X, n)[:, ::-1]
    ...:     print('[n=%d] allclose=%s' % (n, np.all(np.all(np.isclose(X1, X2), 0) | np.all(np.isclose(X1, -X2), 0))))

[n=1] allclose=True
[n=2] allclose=True
[n=3] allclose=True
[n=4] allclose=True
[n=5] allclose=True

GPflow和Sklearn计算出的PCA不匹配

1 个答案: