应用错误收集

单个HDFS拆分上的SPARK RDD分区

时间：2016-11-16 13:41:28

标签： apache-spark

如果我们有一个128MB的文件，HDFS拆分为128MB，我们发出sc.textFile（xxx，4），实际发生了什么？在这种情况下，RDD实际上在分区方面意味着什么？ 4处理分区仍然只是1？

1 个答案:

答案 0 :(得分：1)

使用这样的代码时：

JavaRDD<String> in = sc.textFile(xxx,4);
in.persist();

然后你的RDD有4个分区。它们的大小应为每个32 MB。然后你可以做这样的事情：

rdd.count()

当您使用local [4]在本地运行代码时，计数将与4个进程（任务）并行执行。