将numpy矩阵转换为pyspark rdd

时间:2016-03-24 10:42:10

标签: python pyspark

我有一个2d numpy数组。如何创建一个pyspark rdd,其中矩阵中的每一行都是rdd中的一个条目?

这样:

rddData.take(1)[0] == list(aaData[0])

其中aaData是numpy 2d数组(矩阵)而rddData是从aaData创建的rdd?

1 个答案:

答案 0 :(得分:3)

只需parallelize

mat = np.arange(100).reshape(10, -1)
rdd = sc.parallelize(mat)

np.all(rdd.first() == mat[0])
## True