有人可以告诉我这个问题的答案以及为什么/如何?
Q值。在spark shell上使用以下命令创建多少个分区 intially - sc.textfile( “HDFS://用户/ Cloudera的/ csvfiles”)
目录/user/cloudera/csvfiles
中有100个文件,并且10 nodes
正在运行Spark。
一个。 1
湾10
C。 20
d。 100
答案 0 :(得分:0)
Spark为每个HDFS块创建分区。如果每个文件大小小于群集的块大小,则应该有100个分区。
您可以通过
验证相同内容{{1}}