使用Spark Python中的map来操作弹性分布式数据集

时间:2017-04-30 09:33:09

标签: python numpy apache-spark

我使用numpy的arange创建了一个数组,并希望使用spark.sparkContext.parallelize将该数组转换为RDD。

np_array = [np.arange(0,300)]
rdd_numbers = spark.sparkContext.parallelize(np_array)
times_twelve = rdd_numbers.map(lambda rdd_numbers: rdd_numbers * 12)

我现在想制作一个名为times_twelve的RDD,基本上rdd_numbers中的每个数字乘以12。由于某种原因,times_twelve打印不正确,任何我可能出错的想法?

1 个答案:

答案 0 :(得分:1)

阅读评论时,我可以说Shagun Sodhani是正确的,当他说:

  

print(anyrdd)不会打印RDD的内容

如果要在屏幕上查看RDD的内容,可以使用以下命令(仅适用于小型RDD):

print times_twelve.take(times_twelve.count())

您可以查看here有关Spark支持的这些操作的文档。