如何在许多.gz压缩.json文件上创建hive表?

时间:2016-03-11 18:27:47

标签: json hadoop hive hdfs gzip

我在hdfs上有.json文件的目录,压缩了.gz(几乎是1k)。我想使用这些文件创建hive表(Cloudera环境)。我尝试了很多方法,例如:

CREATE EXTERNAL TABLE `my_data_table`(
    `timestamp` timestamp,
    `ip` string,
    `name` string,
    `id` string,
    `job` string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT
   'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
   'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
   'hdfs://my/files/location'

但是表格显示了单元格值以及标签。 (例如:

  

"名称":"约翰"

而不是

  

约翰

).json中的数据如下所示(例如,1行中的数据):

{"timestamp":"2015-05-09T04:24:58Z","ip":"123.321.12.123","name":"John","id":"EX291236","job":"Programmer","phone":["number:2874723467","model:Alcatel","os:Android"]}

我也想知道如何包含"电话"显然需要以某种特殊方式处理的数据。希望你们可以帮助我。

0 个答案:

没有答案