如何在pyspark rdd中加载csc_matrix

时间:2017-04-15 09:48:56

标签: python-2.7 pyspark sparse-matrix rdd

我有一个稀疏的csc_matrix,我需要在RDD中加载。但是,RDD 不支持直接加载csc_matrix,如:

sc.parallelize(my_csc_matrix)

有没有办法可以将csc_matrix转换为RDD友好的稀疏向量?

1 个答案:

答案 0 :(得分:0)

您可以使用以下命令将其加载到rdd中:

rdd = sc.parallelize(my_csc_matrix.toarray()) 

但是通过这种方式加载,您将再次将csc_matrix转换为密集数组然后加载。但无论如何,如果你想加载,你可以使用上面的代码加载。