我正在测试Parquet文件格式并使用Impala外部表将数据插入Parquet文件。
以下是可能影响Parquet文件大小的参数集:
NUM_NODES: 1
PARQUET_COMPRESSION_CODEC: none
PARQUET_FILE_SIZE: 1073741824
我使用以下insert语句写入Parquet文件。
INSERT INTO TABLE parquet_test.parquetTable
PARTITION (pkey=X)
SELECT col1, col2, col3 FROM map_impala_poc.textTable where col1%100=X;
我想生成大约1 GB的文件大小并相应地对数据进行分区,以便每个分区的Parquet格式数据少于1 GB。但是,此插入操作不会生成超过512 MB的单个文件。它将512 MB的数据写入一个文件,然后创建另一个文件并将其余数据写入另一个文件。如何将所有数据写入单个文件?
答案 0 :(得分:1)
尝试在执行查询的同一会话中设置镶木地板尺寸
set PARQUET_FILE_SIZE=1g;
INSERT INTO TABLE parquet_test.parquetTable ...