我有一个稀疏的csc_matrix,我需要在RDD中加载。但是,RDD 不支持直接加载csc_matrix,如:
sc.parallelize(my_csc_matrix)
有没有办法可以将csc_matrix转换为RDD友好的稀疏向量?
答案 0 :(得分:0)
您可以使用以下命令将其加载到rdd中:
rdd = sc.parallelize(my_csc_matrix.toarray())
但是通过这种方式加载,您将再次将csc_matrix转换为密集数组然后加载。但无论如何,如果你想加载,你可以使用上面的代码加载。