在csc_matrix中查找零元素的行索引

时间:2015-08-04 20:45:46

标签: python numpy scipy

我有一个像这样的csc_matrix:

>>> arr_csc = arr.tocsc()
>>> arr_csc
<2x3 sparse matrix of type '<type 'numpy.int64'>'
    with 5 stored elements in Compressed Sparse Column format>
>>> arr_csc.todense()
matrix([[0, 1, 0],
        [3, 4, 0]])

现在,我想要的是每列中所有零元素的行索引。例如:

For column 0, I want "[0]"
For column 1, I want "[]"
For column 2. I want "[0, 1]"

最快的方法是什么?

谢谢!

2 个答案:

答案 0 :(得分:0)

这样的事情怎么样:

主要想法是使用.indptr.indices,我的解决方案的其余部分可能会得到改进。

from scipy import sparse
import numpy as np 

arr_csc = sparse.csc_matrix([[0, 1, 0],
                            [3, 4, 0]])

result = []

all_rows = np.arange(arr_csc.shape[0])

for i in xrange(len(arr_csc.indptr) - 1):
    start = arr_csc.indptr[i]
    end = arr_csc.indptr[i+1]

    result.append(np.setdiff1d(all_rows, arr_csc.indices[start : end]))

print result 

结果:

[array([0]), array([], dtype=int64), array([0, 1])]

答案 1 :(得分:0)

使用您的样本,这有效:

In [808]: arr=sparse.csc_matrix([[0,1,0],[3,4,0]])\    
In [809]: arr1=arr==0
In [810]: arr1.T.tolil().rows
Out[810]: array([[0], [], [0, 1]], dtype=object)

请注意,当您执行arr==0时,您会收到警告:

  

/usr/lib/python3/dist-packages/scipy/sparse/compressed.py:220:SparseEfficiencyWarning:使用==将稀疏矩阵与0进行比较是低效的,请尝试使用!=代替。     “,试着用!=代替。”,SparseEfficiencyWarning)

在您的样本中,有相同数量的0和非零。但在典型的稀疏矩阵中,还有更多的0。很多0意味着很长的行列表。