应用错误收集

读取文件时SPARK的分区/任务数

时间：2018-06-18 23:56:44

标签： apache-spark apache-spark-sql task partition

有人可以告诉我这个问题的答案以及为什么/如何？

Q值。在spark shell上使用以下命令创建多少个分区 intially - sc.textfile（ “HDFS：//用户/ Cloudera的/ csvfiles”）

目录/user/cloudera/csvfiles中有100个文件，并且10 nodes正在运行Spark。一个。 1 湾10 C。 20 d。 100

1 个答案:

答案 0 :(得分：0)

Spark为每个HDFS块创建分区。如果每个文件大小小于群集的块大小，则应该有100个分区。

您可以通过

验证相同内容

{{1}}