标签: apache-spark google-cloud-dataproc
如果我启动了1个主n1-standard-4和4个工作机的数据集群,也是n1-standard-4,我怎么知道默认创建了多少个分区?如果我想确保我有32个分区,我在PySpark脚本中使用什么语法?我正在阅读Google存储桶中的.csv文件。
只是
myRDD = sc.textFile("gs://PathToFile", 32)
如何判断正在运行的分区数(使用Dataproc作业输出屏幕?
由于
答案 0 :(得分:3)
获取RDD中的parititons数量:http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.getNumPartitions
重新分配RDD:http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.repartition