我正在尝试加载我之前保存的稀疏数组。保存稀疏数组很容易。试图阅读它是一种痛苦。 scipy.load在我的稀疏数组周围返回一个0d数组。
import scipy as sp
A = sp.load("my_array"); A
array(<325729x325729 sparse matrix of type '<type 'numpy.int8'>'
with 1497134 stored elements in Compressed Sparse Row format>, dtype=object)
为了获得稀疏矩阵,我必须展平0d数组,或者使用sp.asarray(A)。这似乎是一种非常难以做到的事情。 Scipy是否足够聪明才能理解它已经加载了一个稀疏数组?有没有更好的方法来加载稀疏数组?
答案 0 :(得分:14)
scipy.io中的mmwrite / mmread函数可以以矩阵市场格式保存/加载稀疏矩阵。
scipy.io.mmwrite('/tmp/my_array',x)
scipy.io.mmread('/tmp/my_array').tolil()
mmwrite
和mmread
可能就是您所需要的。它经过了充分测试,采用了众所周知的格式。
但是,以下内容可能会更快一些:
我们可以将行和列坐标和数据保存为npz格式的一维数组。
import random
import scipy.sparse as sparse
import scipy.io
import numpy as np
def save_sparse_matrix(filename,x):
x_coo=x.tocoo()
row=x_coo.row
col=x_coo.col
data=x_coo.data
shape=x_coo.shape
np.savez(filename,row=row,col=col,data=data,shape=shape)
def load_sparse_matrix(filename):
y=np.load(filename)
z=sparse.coo_matrix((y['data'],(y['row'],y['col'])),shape=y['shape'])
return z
N=20000
x = sparse.lil_matrix( (N,N) )
for i in xrange(N):
x[random.randint(0,N-1),random.randint(0,N-1)]=random.randint(1,100)
save_sparse_matrix('/tmp/my_array',x)
load_sparse_matrix('/tmp/my_array.npz').tolil()
以下是一些建议将稀疏矩阵保存在npz文件中的代码 可能比使用mmwrite / mmread更快:
def using_np_savez():
save_sparse_matrix('/tmp/my_array',x)
return load_sparse_matrix('/tmp/my_array.npz').tolil()
def using_mm():
scipy.io.mmwrite('/tmp/my_array',x)
return scipy.io.mmread('/tmp/my_array').tolil()
if __name__=='__main__':
for func in (using_np_savez,using_mm):
y=func()
print(repr(y))
assert(x.shape==y.shape)
assert(x.dtype==y.dtype)
assert(x.__class__==y.__class__)
assert(np.allclose(x.todense(),y.todense()))
产量
% python -mtimeit -s'import test' 'test.using_mm()'
10 loops, best of 3: 380 msec per loop
% python -mtimeit -s'import test' 'test.using_np_savez()'
10 loops, best of 3: 116 msec per loop
答案 1 :(得分:5)
可以使用()作为索引提取隐藏在0d数组中的对象:
A = sp.load("my_array")[()]
这看起来很奇怪,但无论如何它似乎都有效,而且它是一个非常短的解决方法。
答案 2 :(得分:0)
对于mmwrite
答案的所有票数,我很惊讶没有人试图回答实际问题。但是,由于它已被重新激活,我将试一试。
这再现了OP案例:
In [90]: x=sparse.csr_matrix(np.arange(10).reshape(2,5))
In [91]: np.save('save_sparse.npy',x)
In [92]: X=np.load('save_sparse.npy')
In [95]: X
Out[95]:
array(<2x5 sparse matrix of type '<type 'numpy.int32'>'
with 9 stored elements in Compressed Sparse Row format>, dtype=object)
In [96]: X[()].A
Out[96]:
array([[0, 1, 2, 3, 4],
[5, 6, 7, 8, 9]])
In [93]: X[()].A
Out[93]:
array([[0, 1, 2, 3, 4],
[5, 6, 7, 8, 9]])
In [94]: x
Out[94]:
<2x5 sparse matrix of type '<type 'numpy.int32'>'
with 9 stored elements in Compressed Sparse Row format
'user4713166给我们的[()]
并不是提取稀疏数组的“难道”。
np.save
和np.load
旨在对ndarrays进行操作。但是稀疏矩阵不是这样的数组,也不是子类(如np.matrix
所示)。似乎np.save
将非数组对象包装在object dtype array
中,并将其与对象的酸洗形式一起保存。
当我尝试保存另一种无法腌制的对象时,我收到一条错误消息:
403 # We contain Python objects so we cannot write out the data directly.
404 # Instead, we will pickle it out with version 2 of the pickle protocol.
- &GT; 405 pickle.dump(array,fp,protocol = 2)
所以回答Is Scipy smart enough to understand that it has loaded a sparse array?
,没有。 np.load
不了解稀疏数组。但是np.save
非常聪明,当给出不是数组的东西时,它会发挥作用,而np.load
会在文件中找到它时能做什么。
关于保存和加载稀疏数组的替代方法,已经提到了io.savemat
,MATLAB兼容方法。这将是我的第一选择。但是这个例子也表明你可以使用常规的Python pickling
。如果您需要保存特定的稀疏格式,那可能会更好。如果您可以使用np.save
提取步骤,那么[()]
也不错。 :)
https://github.com/scipy/scipy/blob/master/scipy/io/matlab/mio5.py
write_sparse
- 稀疏以csc
格式保存。与标题一起,它会保存A.indices.astype('i4'))
,A.indptr.astype('i4'))
,A.data.real
和A.data.imag
。
在快速测试中,我发现np.save/load
处理除dok
之外的所有稀疏格式,其中load
抱怨缺少shape
。否则我在稀疏文件中找不到任何特殊的酸洗代码。