稀疏观测矩阵的层次聚类

时间:2017-06-20 18:46:55

标签: python scipy hierarchical-clustering

我试图在大型稀疏观察矩阵上进行层次聚类。矩阵表示许多用户的电影评级。 我的目标是根据他们的电影首选项对类似用户进行聚类。但是,我需要一个树形图,而不是单个分割。为此,我尝试使用 SciPy

R = dok_matrix((nrows, ncols), dtype=np.float32)

for user in ratings:
    for item in ratings[user]:
        R[item, user] = ratings[user][item]

Z = hierarchy.linkage(R.transpose().toarray(), method='ward')

这适用于小型数据集:

enter image description here

然而,我(显然)在扩展时会出现内存问题。 如果有什么方法可以将稀疏矩阵提供给算法?

1 个答案:

答案 0 :(得分:1)

scipy/cluster/hierarchy.py linkage处理y参数:

y = _convert_to_double(np.asarray(y, order='c'))

if y.ndim == 1:
    distance.is_valid_y(y, throw=True, name='y')
    [y] = _copy_arrays_if_base_present([y])
elif y.ndim == 2:
    if method in _EUCLIDEAN_METHODS and metric != 'euclidean':
        raise ValueError("Method '{0}' requires the distance metric "
                         "to be Euclidean".format(method))
    y = distance.pdist(y, metric)
else:
    raise ValueError("`y` must be 1 or 2 dimensional.")

当我将asarray应用于dok时,我得到一个0d对象数组。它只是将字典包装在一个数组中。

In [905]: M=sparse.dok_matrix([[1,0,0,2,3],[0,0,0,0,1]])
In [906]: M
Out[906]: 
<2x5 sparse matrix of type '<class 'numpy.int32'>'
    with 4 stored elements in Dictionary Of Keys format>
In [908]: m = np.asarray(M)
In [909]: m
Out[909]: 
array(<2x5 sparse matrix of type '<class 'numpy.int32'>'
    with 4 stored elements in Dictionary Of Keys format>, dtype=object)
In [910]: m.shape
Out[910]: ()

linkage接受1d压缩样式距离矩阵,或等效的2d压缩样式。

进一步了解linkage我推断ward使用nn_chain,它位于已编译的scipy/cluster/_hierarchy.cpython-35m-i386-linux-gnu.so文件中。这使得该方法的工作部分甚至超出了偶然的Python程序员的范围。