scipy.sparse.csr_matrix.toarray()的大内存使用量

时间:2017-05-16 13:55:38

标签: python numpy memory scipy sparse-matrix

我有一个相当大的稀疏矩阵A作为scipy.sparse.csr_matrix。它具有以下属性:

A.shape: (77169, 77169)
A.nnz: 284811011
A.dtype: dtype('float16')

现在我必须使用.toarray()将其转换为密集数组。我对内存使用量的估计是

77169**2 * (16./8.) / 1024.**3 = 11.09... GB

这很好,因为我的机器有~48GB的内存。事实上,如果我创建的a=np.ones((77169, 77169), dtype=np.float16)工作得很好,确实a.nbytes/1024.**3 = 11.09...。但是,当我在稀疏矩阵上运行A.toarray()时,它会打包所有内存并在某个时刻开始使用交换(它不会引发MemoryError)。这里出了什么问题?它不应该轻易融入我的记忆中吗?

1 个答案:

答案 0 :(得分:1)

对于csr toarray()

self.tocoo(copy=False).toarray(order=order, out=out)

你可以继续跟踪coo.toarray,但我怀疑它最终会使用已编译的代码。但我怀疑它最终会相当于:

In [715]: M=sparse.random(10,10,.2,format='csr')
In [717]: M=M.astype(np.float16)
In [718]: A = np.zeros(M.shape, M.dtype)
In [719]: Mo=M.tocoo()
In [720]: A[Mo.row, Mo.col] = Mo.data

奇怪的是,如果我这样做

In [728]: Mo.toarray()
     ...
    257         coo_todense(M, N, self.nnz, self.row, self.col, self.data,
--> 258                     B.ravel('A'), fortran)
    259         return B
...
ValueError: Output dtype not compatible with inputs.

float16遇到问题。 Mo.astype(float).toarray()工作正常。即使将toarray(out=out)与float16一起使用,我也会收到此错误,这让我怀疑coo_todense只使用了几个dtype替代品进行编译。也许我以后会深入研究它。

In [741]: scipy.__version__
Out[741]: '0.18.1'

Warren的错误报告中的评论

  

但是xxx_todense函数实际上是A + = X,

建议从Mo.dataA[]的副本比指示的更复杂。与toarrayMo.tocsr()一样,Mo.sum_duplicates()与重复项相加。