python / scikit-learn中距离计算的稀疏实现

时间:2012-01-21 20:11:58

标签: python machine-learning scikits scikit-learn

我有一个svmlight格式的大型(100K×30K)和(非常)稀疏数据集,我加载如下:

import numpy as np
from scipy.cluster.vq import kmeans2
from scipy.spatial.distance import pdist, squareform
from sklearn.datasets import load_svmlight_file

X,Y = load_svmlight_file("somefile_svm.txt")

返回一个稀疏的scipy数组X

我只需要计算所有训练点的成对距离

D = pdist(X)

不幸的是,scipy.spatial.distance中的距离计算实现仅适用于密集矩阵。由于数据集的大小,使用pdist作为

是不可行的
D = pdist(X.todense())

任何有关此问题的稀疏矩阵距离计算实现或变通方法的指针都将非常受欢迎。

非常感谢

1 个答案:

答案 0 :(得分:4)

scikit-learn中,有一个sklearn.metrics.euclidean_distances函数可用于稀疏矩阵和密集numpy数组。请参阅reference documentation

然而,稀疏矩阵尚未实现非欧几里德距离。