Question

有没有一种很好的方法来测量或检查scipy.sparse矩阵的密度？

例如：

import scipy.sparse
import numpy as np

row  = np.array([0,3,1,0])
col  = np.array([0,3,1,2])
data = np.array([4,5,7,9])

mat = scipy.sparse.coo_matrix((data,(row,col)), shape=(4,4))
print mat.todense()

[[4 0 9 0]
 [0 7 0 0]
 [0 0 0 0]
 [0 0 0 5]]

也许返回的东西给出了总体密度的一般统计数据，例如每行的平均占用率（即，第一行占据2/4值，第二行占用1/4，第三行占用0/4，第四行占用1/4，因此平均占用率/密度将是1/4），stddev，方差等。也许有一个更好的密度度量，可以应用不依赖于矩阵的大小（假设它足够大））。

Answer 1

一种方法是使用getnnz()方法来识别给定行，列或矩阵中非零项目的数量。

让我们从一个示例稀疏矩阵sp_mat开始。

sp_mat.todense()

matrix([[0, 1, 1, 1, 1],
        [1, 0, 1, 0, 0]])

整个矩阵中的非零元素计数：

sp_mat.getnnz()
# 6

给定行中的非零元素计数：

sp_mat[0,:].getnnz()
# 4

所有行的非零元素计数：

sp_mat.getnnz(axis=1)
# array([4, 2], dtype=int32)

列中的非零元素计数：

sp_mat[:,1].getnnz()
# 1

所有列的非零元素计数：

sp_mat.getnnz(axis=0)
#  array([1, 1, 2, 1, 1])

这可以与矩阵的形状进行比较以计算密度：

sp_mat.shape
# (2, 5)

Answer 2

我不知道任何此类密度函数，但您可以搜索or文档。

很容易获得整个数组的非零元素数量，以及每行的迭代次数。

sparse

我使用mat.nnz Out[55]: 4 [i.nnz for i in mat.tolil()] Out[57]: [2, 1, 0, 1]因为tolil不允许行迭代（或索引）。 coo也可以。

您也可以直接使用csr格式的属性，因为它们是列表列表。这比迭代lil格式的行要快得多。该操作在每次迭代时创建一个新的稀疏矩阵，这是一个缓慢的操作。

lil

将其转换为数组，并计算所需的所有统计信息：

mal=mat.tolil()

mal.data
Out[65]: array([[4, 9], [7], [], [5]], dtype=object)

mal.rows
Out[67]: array([[0, 2], [1], [], [3]], dtype=object)

[len(i) for i in mal.rows]
Out[68]: [2, 1, 0, 1]

将此行计数应用于密集阵列

可能会更快

In [76]: s=np.array([len(i) for i in mal.rows])

In [77]: np.mean(s/4.)
Out[77]: 0.25

In [78]: np.std(s/4.)
Out[78]: 0.17677669529663689

我刚刚意识到，至少在密集版本中，你可以在没有迭代的情况下获得非零数 - 总和一个布尔值：

In [93]: timeit [np.count_nonzero(i) for i in mat.A]
10000 loops, best of 3: 44.3 µs per loop

In [94]: timeit [i.nnz for i in mat.tolil()]
100 loops, best of 3: 2.67 ms per loop

（虽然对于这个小样本数组，这比其他密集版本慢）。

稀疏版本也可以，但速度较慢（但比迭代稀疏版本快）。大多数情况下，它是布尔测试;行求和用矩阵乘法完成。

In [6]: (mat.A!=0).sum(axis=1)
Out[6]: array([2, 1, 0, 1])

这是一种更快的稀疏求和方法：

In [9]: (mat!=0).sum(axis=1)
Out[9]: 
matrix([[2],
        [1],
        [0],
        [1]])

In [13]: mat1=mat.tocsr(); mat1.data[:]=1;mat1.sum(axis=1) Out[13]: matrix([[2], [1], [0], [1]])复制一份;我们将tocsr更改为所有，并将它们相加。

因此，如果速度很重要，您需要使用实际尺寸矩阵进行自己的时间测试。

Answer 3

要获得mat的简单密度得分（即矩阵中非零元素的分数），我使用类似的方法；

density = mat.getnnz() / np.prod(mat.shape)

Answer 4

您可以将mat中的所有元素计为 all=sum(mat.count()) 接下来，您可以将所有零计数为 zeros=all-count_nonzero(mat) 根据这些值，您可以估算出密度为 density=zeros/all

检查Scipy稀疏矩阵的密度

4 个答案: