我们的数据集在s3(镶木地板文件)中,格式如下,数据根据行号分为多个镶木地板文件
data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...
使用
在其上创建配置单元表CREATE EXTERNAL TABLE parquet_hive (
foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';
总共有22000个镶木地板文件,文件夹大小近300GB。当我在Hive中对此表运行计数查询时,需要6个小时才能返回结果,即近70亿条记录。我们怎样才能让它更快?我可以在表上创建分区或索引,或者这是从s3中提取数据时通常需要的时间。任何人都可以提出建议,这里有什么问题。
感谢。