应用错误收集

比方说：我们在Hive中存储了一个按日期分区的表。例如：

我们有一个名为Person的表和一个名为datestr=2019-01-01的分区，它以 Parquet 格式（也可以是另一种格式）存储。

现在在上述分区（datestr=2019-01-01）中， HDFS 中有 10个实木复合地板文件。

某些属性：

HDFS块大小-512 MB

HDFS文件大小<= 1 GB

我有多个问题：

如果我读取诸如-从datestr =“ 2019-01-01”的Person中选择*的表，那么将创建多少个分区？
如果我直接读取分区，那么将创建多少个分区-spark.read.parquet("hdfs://path/Person/datestr-2019-01-01/)，然后将创建多少个分区？
分区也取决于表存储格式吗？

任何线索都将有所帮助。

Spark如何决定否。从Hive读取时创建的分区/任务的数量

0 个答案: