Spark如何决定否。从Hive读取时创建的分区/任务的数量

时间:2019-05-22 10:16:14

标签: apache-spark hadoop hive spark-hive

比方说:我们在Hive中存储了一个按日期分区的表。例如:

  

我们有一个名为Person的表和一个名为datestr=2019-01-01的分区,它以 Parquet 格式(也可以是另一种格式)存储。

     

现在在上述分区(datestr=2019-01-01)中, HDFS 中有 10个实木复合地板文件

     

某些属性:

     

HDFS块大小-512 MB

     

HDFS文件大小<= 1 GB

我有多个问题:

  • 如果我读取诸如-从datestr =“ 2019-01-01”的Person中选择*的表,那么将创建多少个分区?
  • 如果我直接读取分区,那么将创建多少个分区-spark.read.parquet("hdfs://path/Person/datestr-2019-01-01/),然后将创建多少个分区?
  • 分区也取决于表存储格式吗?

任何线索都将有所帮助。

0 个答案:

没有答案