pyspark RDD文档
http://spark.apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD
没有显示任何显示RDD分区信息的方法。
有没有办法在不执行额外步骤的情况下获取该信息,例如:
myrdd.mapPartitions(lambda x: iter[1]).sum()
以上确实有效..但似乎是额外的努力。
答案 0 :(得分:32)
我错过了:非常简单:
rdd.getNumPartitions()
不再使用java-ish 获取 FooMethod();)
更新:添加来自@dnlbrky的评论:
dataFrame.rdd.getNumPartitions()