单个HDFS拆分上的SPARK RDD分区

时间:2016-11-16 13:41:28

标签: apache-spark

如果我们有一个128MB的文件,HDFS拆分为128MB,我们发出sc.textFile(xxx,4),实际发生了什么?在这种情况下,RDD实际上在分区方面意味着什么? 4处理分区仍然只是1?

1 个答案:

答案 0 :(得分:1)

使用这样的代码时:

JavaRDD<String> in = sc.textFile(xxx,4);
in.persist();

然后你的RDD有4个分区。它们的大小应为每个32 MB。然后你可以做这样的事情:

rdd.count()

当您使用local [4]在本地运行代码时,计数将与4个进程(任务)并行执行。