我正在尝试将Pipe分隔文件加载到配置为Parquet格式的配置单元中。我在所有行中都有空格字符。在管道定界输入文件中,没有空格ID-12345 Name-ADAM。但是它的存储空间介于两者之间。所有行都在发生这种情况。
ID 1 2 3 4 5
名称 A D A M
创建表结构:
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
WITH SERDEPROPERTIES (
'field.delim'='|',
'serialization.format'='|')
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'