如果我们有一个128MB的文件,HDFS拆分为128MB,我们发出sc.textFile(xxx,4),实际发生了什么?在这种情况下,RDD实际上在分区方面意味着什么? 4处理分区仍然只是1?
答案 0 :(得分:1)
使用这样的代码时:
JavaRDD<String> in = sc.textFile(xxx,4);
in.persist();
然后你的RDD有4个分区。它们的大小应为每个32 MB。然后你可以做这样的事情:
rdd.count()
当您使用local [4]在本地运行代码时,计数将与4个进程(任务)并行执行。