我正在阅读 Matrix decompositions and latent semantic indexing (在线版© 2009剑桥UP)
我正在尝试了解如何减少矩阵中的维数。我在尝试使用Python's numpy复制第13页的示例。
让我们调用原始出现矩阵“a”和三个SVD(奇异值分解)分解矩阵“U”,“S”和“V”。
我遇到的麻烦是,在我将“S”中较小的奇异值归零后,当我使用numpy将“U”,“S”和“V”相乘时,答案并非如此给出在pdf中。底部3行不是全部为零。有趣的是,当我只是乘以“S”和“V”时,我得到了正确的答案。
这有点令人惊讶,但乘以“S”和“V”实际上是Manning和Schutze的书“统计自然语言处理基础”所说的你必须要做的事情。但这不是pdf在第10页中所说的。
那么这里发生了什么?
答案 0 :(得分:3)
乘以S
和V
正是您需要做的就是使用SVD / LSA执行降维。
>>> C = np.array([[1, 0, 1, 0, 0, 0],
... [0, 1, 0, 0, 0, 0],
... [1, 1, 0, 0, 0, 0],
... [1, 0, 0, 1, 1, 0],
... [0, 0, 0, 1, 0, 1]])
>>> from scipy.linalg import svd
>>> U, s, VT = svd(C, full_matrices=False)
>>> s[2:] = 0
>>> np.dot(np.diag(s), VT)
array([[ 1.61889806, 0.60487661, 0.44034748, 0.96569316, 0.70302032,
0.26267284],
[-0.45671719, -0.84256593, -0.29617436, 0.99731918, 0.35057241,
0.64674677],
[ 0. , 0. , 0. , 0. , 0. ,
0. ],
[ 0. , 0. , 0. , 0. , 0. ,
0. ],
[ 0. , 0. , 0. , 0. , 0. ,
0. ]])
这给出了一个矩阵,其中除最后几行之外的所有行都是零,因此可以将它们删除,实际上这是您在应用程序中使用的矩阵:
>>> np.dot(np.diag(s[:2]), VT[:2])
array([[ 1.61889806, 0.60487661, 0.44034748, 0.96569316, 0.70302032,
0.26267284],
[-0.45671719, -0.84256593, -0.29617436, 0.99731918, 0.35057241,
0.64674677]])
PDF第10页描述的是获得输入C
的低级重建的方法。 Rank!=维度,重建矩阵的剪切大小和密度使得在LSA中使用是不切实际的;它的目的主要是数学。你可以做的一件事就是检查重建对于k
的各种值的好处:
>>> U, s, VT = svd(C, full_matrices=False)
>>> C2 = np.dot(U[:, :2], np.dot(np.diag(s[:2]), VT[:2]))
>>> from scipy.spatial.distance import euclidean
>>> euclidean(C2.ravel(), C.ravel()) # Frobenius norm of C2 - C
1.6677932876555255
>>> C3 = np.dot(U[:, :3], np.dot(np.diag(s[:3]), VT[:3]))
>>> euclidean(C3.ravel(), C.ravel())
1.0747879905228703
对scikit-learn's TruncatedSVD
的完整性检查(完全披露:我写的那个):
>>> from sklearn.decomposition import TruncatedSVD
>>> TruncatedSVD(n_components=2).fit_transform(C.T)
array([[ 1.61889806, -0.45671719],
[ 0.60487661, -0.84256593],
[ 0.44034748, -0.29617436],
[ 0.96569316, 0.99731918],
[ 0.70302032, 0.35057241],
[ 0.26267284, 0.64674677]])