读取文件时SPARK的分区/任务数

时间:2018-06-18 23:56:44

标签: apache-spark apache-spark-sql task partition

有人可以告诉我这个问题的答案以及为什么/如何?

Q值。在spark shell上使用以下命令创建多少个分区 intially - sc.textfile( “HDFS://用户/ Cloudera的/ csvfiles”)

目录/user/cloudera/csvfiles中有100个文件,并且10 nodes正在运行Spark。     一个。 1     湾10     C。 20     d。 100

1 个答案:

答案 0 :(得分:0)

Spark为每个HDFS块创建分区。如果每个文件大小小于群集的块大小,则应该有100个分区。

您可以通过

验证相同内容
{{1}}