比方说:我们在Hive中存储了一个按日期分区的表。例如:
我们有一个名为
Person
的表和一个名为datestr=2019-01-01
的分区,它以 Parquet 格式(也可以是另一种格式)存储。现在在上述分区(
datestr=2019-01-01
)中, HDFS 中有 10个实木复合地板文件。某些属性:
HDFS块大小-512 MB
HDFS文件大小<= 1 GB
我有多个问题:
spark.read.parquet("hdfs://path/Person/datestr-2019-01-01/)
,然后将创建多少个分区? 任何线索都将有所帮助。