在pyspark RDD上显示分区

时间:2015-03-15 00:58:12

标签: python apache-spark pyspark

pyspark RDD文档

  

http://spark.apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD

没有显示任何显示RDD分区信息的方法。

有没有办法在不执行额外步骤的情况下获取该信息,例如:

myrdd.mapPartitions(lambda x: iter[1]).sum()

以上确实有效..但似乎是额外的努力。

1 个答案:

答案 0 :(得分:32)

我错过了:非常简单:

rdd.getNumPartitions()

不再使用java-ish 获取 FooMethod();)

更新:添加来自@dnlbrky的评论:

dataFrame.rdd.getNumPartitions()