将.tar.gz文件中的大型.csv文件加载到Hive Table中

时间:2016-10-26 17:14:50

标签: csv hadoop hive

我有一个大.csv个文件存储在.tar.gz文件中,并希望将其内容放入Hive表中。不幸的是,我没有足够的磁盘空间来解压缩.csv文件。

我尝试了以下(以及以下各种变体):

Set Hive.exec.compress.output = true;
Set io.seqfile.compression.type = block;

DROP TABLE IF EXISTS db.test;
CREATE TABLE db.test
 (var1 STRING, . . . varn STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
FIELDS TERMINATED BY '\n';

create table test_seq 
stored as sequencefile as
 select * from test ;
LOAD DATA LOCAL INPATH '/home/db/test.tar.gz' INTO TABLE db.test;

create table test_seq
stored as sequencefile as
 select * from test;

SELECT * FROM test LIMIT 10;

但结果表只包含NULL值。有什么建议吗?

1 个答案:

答案 0 :(得分:-2)

你应该更换第二个终止的字段'通过'行终止'。