Question

我已尝试从文档建议的csc_matrix值列表中初始化csr_matrix和(data, (rows, cols))。

sparse = csc_matrix((data, (rows, cols)), shape=(n, n))

问题在于，我实际用于生成data，rows和cols向量的方法会为某些点引入重复项。默认情况下，scipy会添加重复条目的值。但是，在我的情况下，对于给定的data，这些重复项在(row, col)中具有完全相同的值。

我想要实现的是让scipy忽略第二个条目（如果已存在的条目），而不是添加它们。

忽略我可以改进生成算法以避免生成重复的事实，是否有参数或其他方法来创建忽略重复的稀疏矩阵？

目前，data = [4, 4]; cols = [1, 1]; rows = [1, 1];的两个条目会生成一个稀疏矩阵，其(1,1)的值为8，而期望值为4。

>>> c = csc_matrix(([4, 4], ([1,1],[1,1])), shape=(3,3))
>>> c.todense()
matrix([[0, 0, 0],
        [0, 8, 0],
        [0, 0, 0]])

我也知道我可以使用2维numpy unique函数来过滤它们，但是列表非常大，所以这不是一个真正有效的选项。

问题的其他可能答案：是否有任何方法可以指定如何处理重复项？即保留min或max而不是默认sum？

Answer 1

创建中间dok矩阵适用于您的示例：

In [410]: c=sparse.coo_matrix((data, (cols, rows)),shape=(3,3)).todok().tocsc()

In [411]: c.A
Out[411]: 
array([[0, 0, 0],
       [0, 4, 0],
       [0, 0, 0]], dtype=int32)

coo矩阵会将您的输入数组放入其data，col，row属性中而不做任何更改。在将其转换为csc之前，不会进行求和。

todok直接从coo属性加载字典。它会创建空白dok矩阵，并用以下内容填充：

dok.update(izip(izip(self.row,self.col),self.data))

因此，如果存在重复的(row,col)值，则它是最后一个值。这使用标准的Python字典散列来查找唯一键。

以下是使用np.unique的方法。我必须构造一个特殊的对象数组，因为unique在1d上运行，我们有一个2d索引。

In [479]: data, cols, rows = [np.array(j) for j in [[1,4,2,4,1],[0,1,1,1,2],[0,1,2,1,1]]]

In [480]: x=np.zeros(cols.shape,dtype=object)

In [481]: x[:]=list(zip(rows,cols))

In [482]: x
Out[482]: array([(0, 0), (1, 1), (2, 1), (1, 1), (1, 2)], dtype=object)

In [483]: i=np.unique(x,return_index=True)[1]

In [484]: i
Out[484]: array([0, 1, 4, 2], dtype=int32)

In [485]: c1=sparse.csc_matrix((data[i],(cols[i],rows[i])),shape=(3,3))

In [486]: c1.A
Out[486]: 
array([[1, 0, 0],
       [0, 4, 2],
       [0, 1, 0]], dtype=int32)

我不知道哪种方法更快。

根据liuengo's链接获取唯一索引的另一种方法：

rc = np.vstack([rows,cols]).T.copy()
dt = rc.dtype.descr * 2
i = np.unique(rc.view(dt), return_index=True)[1]

rc必须拥有自己的数据才能更改带有视图的dtype，因此.T.copy()。

In [554]: rc.view(dt)
Out[554]: 
array([[(0, 0)],
       [(1, 1)],
       [(2, 1)],
       [(1, 1)],
       [(1, 2)]], 
      dtype=[('f0', '<i4'), ('f1', '<i4')])

Answer 2

由于data中重复（行，列）的值相同，因此，您可以获得如下所示的唯一行，列和值：

rows, cols, data = zip(*set(zip(rows, cols, data)))

示例：

data = [4, 3, 4]
cols = [1, 2, 1]
rows = [1, 3, 1]

csc_matrix((data, (rows, cols)), shape=(4, 4)).todense()

matrix([[0, 0, 0, 0],
        [0, 8, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 3, 0]])



rows, cols, data = zip(*set(zip(rows, cols, data)))
csc_matrix((data, (rows, cols)), shape=(4, 4)).todense()

matrix([[0, 0, 0, 0],
        [0, 4, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 3, 0]])

Answer 3

只需更新hpaulj对最新版本的SciPy的答案，现在就可以使用该COO矩阵c来解决此问题的最简单方法：

dok=sparse.dok_matrix((c.shape),dtype=c.dtype)
dok._update(zip(zip(c.row,c.col),c.data))

new_c = dok.tocsc()

这是由于dok update()函数中有一个新的包装器而导致，它无法直接更改数组，因此需要使用下划线绕过包装器。

忽略稀疏矩阵中的重复条目

3 个答案: