将Pandas数据帧直接转换为Sparse Numpy Matrix

时间:2013-12-08 21:45:50

标签: python numpy pandas scipy

我正在从Pandas数据框创建一个矩阵,如下所示:

dense_matrix = np.array(df.as_matrix(columns = None), dtype=bool).astype(np.int)

然后进入稀疏矩阵:

sparse_matrix = scipy.sparse.csr_matrix(dense_matrix)

有没有办法从直接转换为稀疏矩阵?

提前致谢。

1 个答案:

答案 0 :(得分:43)

df.values是一个numpy数组,以这种方式访问​​值总是比np.array快。

scipy.sparse.csr_matrix(df.values)

您可能需要先进行转置,例如df.values.T。在DataFrames中,列为轴0。