Question

使用pytables时，scipy.sparse矩阵格式不支持（据我所知），因此要存储矩阵，我必须进行一些转换，例如

def store_sparse_matrix(self):
    grp1 = self.getFileHandle().createGroup(self.getGroup(), 'M')
    self.getFileHandle().createArray(grp1, 'data', M.tocsr().data)
    self.getFileHandle().createArray(grp1, 'indptr', M.tocsr().indptr)
    self.getFileHandle().createArray(grp1, 'indices', M.tocsr().indices)

def get_sparse_matrix(self):
    return sparse.csr_matrix((self.getGroup().M.data, self.getGroup().M.indices, self.getGroup().M.indptr))

问题是get_sparse函数需要一些时间（从磁盘读取），如果我理解正确也需要数据适合内存。

唯一的其他选择似乎是将矩阵转换为密集格式（numpy array），然后正常使用pytables。然而，这似乎是相当低效的，虽然我想也许pytables会处理压缩本身？

Answer 1

借用Storing numpy sparse matrix in HDF5 (PyTables)，您可以使用scipy.sparse，data和indicies属性将indptr数组封装成pytables格式常规numpy.ndarray个对象。

使用pytables，效率更高：scipy.sparse还是numpy密集矩阵？

1 个答案: