应用错误收集

如何在Dataproc集群上指定/检查分区数

时间：2016-04-14 02:08:57

标签： apache-spark google-cloud-dataproc

如果我启动了1个主n1-standard-4和4个工作机的数据集群，也是n1-standard-4，我怎么知道默认创建了多少个分区？如果我想确保我有32个分区，我在PySpark脚本中使用什么语法？我正在阅读Google存储桶中的.csv文件。

只是

myRDD = sc.textFile("gs://PathToFile", 32)

如何判断正在运行的分区数（使用Dataproc作业输出屏幕？

由于

1 个答案:

答案 0 :(得分：3)

获取RDD中的parititons数量：http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.getNumPartitions

重新分配RDD：http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.repartition