如何在Dataproc集群上指定/检查分区数

时间:2016-04-14 02:08:57

标签: apache-spark google-cloud-dataproc

如果我启动了1个主n1-standard-4和4个工作机的数据集群,也是n1-standard-4,我怎么知道默认创建了多少个分区?如果我想确保我有32个分区,我在PySpark脚本中使用什么语法?我正在阅读Google存储桶中的.csv文件。

只是

myRDD = sc.textFile("gs://PathToFile", 32)

如何判断正在运行的分区数(使用Dataproc作业输出屏幕?

由于