我有一个2d numpy数组。如何创建一个pyspark rdd,其中矩阵中的每一行都是rdd中的一个条目?
这样:
rddData.take(1)[0] == list(aaData[0])
其中aaData
是numpy 2d数组(矩阵)而rddData
是从aaData
创建的rdd?
答案 0 :(得分:3)
只需parallelize
:
mat = np.arange(100).reshape(10, -1)
rdd = sc.parallelize(mat)
np.all(rdd.first() == mat[0])
## True