稀疏矩阵中非零值的平均值?

时间:2015-12-14 11:21:26

标签: python scipy sparse-matrix

我正在尝试计算稀疏行矩阵的每一行中的非零值的平均值。使用矩阵的均值方法不能这样做:

>>> from scipy.sparse import csr_matrix
>>> a = csr_matrix([[0, 0, 2], [1, 3, 8]])
>>> a.mean(axis=1)
matrix([[ 0.66666667],
        [ 4.        ]])

以下有效,但对于大型矩阵来说速度很慢:

>>> import numpy as np
>>> b = np.zeros(a.shape[0])
>>> for i in range(a.shape[0]):
...    b[i] = a.getrow(i).data.mean()
... 
>>> b
array([ 2.,  4.])

有没有人可以告诉我是否有更快的方法?

4 个答案:

答案 0 :(得分:6)

这似乎是您可以使用numpy.bincount.的典型问题。为此,我使用了三个函数:

(x,y,z)=scipy.sparse.find(a)

返回稀疏矩阵的行(x),列(y)和值(z)。对于instace,xarray([0, 1, 1, 1].

numpy.bincount(x)为每个行号返回你有多少非零元素。

numpy.bincount(x,wights=z)为每一行返回非零元素的总和。

最终工作代码:

from scipy.sparse import csr_matrix
a = csr_matrix([[0, 0, 2], [1, 3, 8]])

import numpy
import scipy.sparse
(x,y,z)=scipy.sparse.find(a)
countings=numpy.bincount(x)
sums=numpy.bincount(x,weights=z)
averages=sums/countings

print(averages)

返回:

[ 2.  4.]

答案 1 :(得分:6)

使用CSR格式矩阵,您可以更轻松地完成此任务:

sums = a.sum(axis=1).A1
counts = np.diff(a.indptr)
averages = sums / counts

直接支持行和,CSR格式的结构意味着indptr数组中连续值之间的差异与每行中非零元素的数量完全对应。

答案 2 :(得分:1)

我总是喜欢在你感兴趣的任何轴上求和,然后除以相应行/列中非零元素的总和。

像这样:

sp_arr = csr_matrix([[0, 0, 2], [1, 3, 8]])
col_avg = sp_arr.sum(0) / (sp_arr != 0).sum(0)
row_avg = sp_arr.sum(1) / (sp_arr != 0).sum(1)
print(col_avg)
matrix([[ 1.,  3.,  5.]])
print(row_avg)
matrix([[ 2.],
        [ 4.]])

基本上,您将沿给定轴的所有条目的总值相加,然后除以矩阵的True条目的总和!= 0(这是实际条目的数量)。

我发现这种方法比其他选项更简单,更容易。

答案 3 :(得分:0)

返回平均值列表的简单方法:

a.sum(axis=0) / a.getnnz(axis=0)

假设矩阵中没有任何明确的零。 如果需要,请更改轴。