Question

我在使用scipy COO稀疏矩阵作为Affinity传播的输入方面遇到了问题，但是对于numpy数组它可以很好地工作。

只是一个例子，说我的相似性矩阵是：

[[1.0, 0.9, 0.2]
 [0.9, 1.0, 0.0]
 [0.2, 0.0, 1.0]]

Numpy矩阵版

import numpy as np
import sklearn.cluster

simnp = np.array([[1,0.9,0.2],[0.9,1,0],[0.2,0,1]])
affprop = sklearn.cluster.AffinityPropagation(affinity="precomputed")
affprop.fit(simnp)

按预期工作。

稀疏矩阵版

import scipy.sparse as sps
import sklearn.cluster

simsps = sps.coo_matrix(([1,1,1,0.9,0.9,0.2,0.2],([0,1,2,0,1,0,2],[0,1,2,1,0,2,0])),(3,3))
affprop = sklearn.cluster.AffinityPropagation(affinity="precomputed")
affprop.fit(simsps)

返回以下错误

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Python\Python27\lib\site-packages\sklearn\cluster\affinity_propagation_.py", line 301, in fit
    copy=self.copy, verbose=self.verbose, return_n_iter=True)
  File "C:\Python\Python27\lib\site-packages\sklearn\cluster\affinity_propagation_.py", line 90, in affinity_propagation
    preference = np.median(S)
  File "C:\Python\Python27\lib\site-packages\numpy\lib\function_base.py", line 3084, in median
    overwrite_input=overwrite_input)
  File "C:\Python\Python27\lib\site-packages\numpy\lib\function_base.py", line 2997, in _ureduce
    r = func(a, **kwargs)
  File "C:\Python\Python27\lib\site-packages\numpy\lib\function_base.py", line 3158, in _median
    return mean(part[indexer], axis=axis, out=out)
  File "C:\Python\Python27\lib\site-packages\numpy\core\fromnumeric.py", line 2878, in mean
    out=out, keepdims=keepdims)
  File "C:\Python\Python27\lib\site-packages\numpy\core\_methods.py", line 70, in _mean
    ret = ret.dtype.type(ret / rcount)
ValueError: setting an array element with a sequence.

我的笔记本电脑没有足够的RAM来获取密集矩阵，因此想要使用稀疏矩阵。

我做错了什么？

感谢。

Answer 1

http://scikit-learn.org/stable/modules/generated/sklearn.cluster.AffinityPropagation.html

适合（X，y =无）   参数：
  X：类似数组，形状（n_samples，n_features）或（n_samples，n_samples）

预测（X）   参数：
  X：{array-like，sparse matrix}，shape（n_samples，n_features）

http://scikit-learn.org/stable/modules/generated/sklearn.cluster.SpectralClustering.html

适合（X，y =无）   参数：
  X：类似数组或稀疏矩阵，形状（n_samples，n_features）

所以有些方法接受稀疏矩阵。但AffinityPropagation.fit没有提出这种说法。这是文档遗漏，还是表明它不适用于稀疏矩阵？你的错误表明后者 - 由于某种原因，它还没有适应稀疏。

我不是scikit-learn的用户，但已回答了有关该软件包中稀疏矩阵的一些问题。我的印象是处理稀疏是相对较新的，在某些情况下，他们必须使用todense()将稀疏的处理重新转换为密集矩阵。

就像我在评论中写的那样，numpy代码本身并不能正确处理稀疏矩阵。它只有在将操作委托给稀疏方法时才有效。 np.median和np.mean似乎没有正确委托给sparse.coo_matrix.mean。

尝试：

np.median(simnp)
np.mean(simnp)
simnp.mean()

Answer 2

更新sklearn的当前状态（2019年6月）可能会有用。

在最初提出问题时，已有fix的issue报告说AffinityPropagation不适用于稀疏矩阵。最近（2019年5月），reported again不能使用AffinityPropagation处理稀疏矩阵。

摘要实际上是：

仅当亲和力不是预先计算而是欧几里得时，拟合才适用于稀疏矩阵（因为它调用了适用于稀疏矩阵的sklearn.metrics.euclidean_distances）。实际上，这在内存消耗方面没有任何优势。
如果预先计算了亲和力，则拟合不适用于稀疏矩阵。当前的代码阻塞行似乎是中位数的计算。

使用具有sklearn亲和力传播的稀疏矩阵

2 个答案: