我有一个像这样的csc_matrix:
>>> arr_csc = arr.tocsc()
>>> arr_csc
<2x3 sparse matrix of type '<type 'numpy.int64'>'
with 5 stored elements in Compressed Sparse Column format>
>>> arr_csc.todense()
matrix([[0, 1, 0],
[3, 4, 0]])
现在,我想要的是每列中所有零元素的行索引。例如:
For column 0, I want "[0]"
For column 1, I want "[]"
For column 2. I want "[0, 1]"
最快的方法是什么?
谢谢!
答案 0 :(得分:0)
这样的事情怎么样:
主要想法是使用.indptr
和.indices
,我的解决方案的其余部分可能会得到改进。
from scipy import sparse
import numpy as np
arr_csc = sparse.csc_matrix([[0, 1, 0],
[3, 4, 0]])
result = []
all_rows = np.arange(arr_csc.shape[0])
for i in xrange(len(arr_csc.indptr) - 1):
start = arr_csc.indptr[i]
end = arr_csc.indptr[i+1]
result.append(np.setdiff1d(all_rows, arr_csc.indices[start : end]))
print result
结果:
[array([0]), array([], dtype=int64), array([0, 1])]
答案 1 :(得分:0)
使用您的样本,这有效:
In [808]: arr=sparse.csc_matrix([[0,1,0],[3,4,0]])\
In [809]: arr1=arr==0
In [810]: arr1.T.tolil().rows
Out[810]: array([[0], [], [0, 1]], dtype=object)
请注意,当您执行arr==0
时,您会收到警告:
/usr/lib/python3/dist-packages/scipy/sparse/compressed.py:220:SparseEfficiencyWarning:使用==将稀疏矩阵与0进行比较是低效的,请尝试使用!=代替。 “,试着用!=代替。”,SparseEfficiencyWarning)
在您的样本中,有相同数量的0和非零。但在典型的稀疏矩阵中,还有更多的0。很多0意味着很长的行列表。