我在hdfs上有.json文件的目录,压缩了.gz(几乎是1k)。我想使用这些文件创建hive表(Cloudera环境)。我尝试了很多方法,例如:
CREATE EXTERNAL TABLE `my_data_table`(
`timestamp` timestamp,
`ip` string,
`name` string,
`id` string,
`job` string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'hdfs://my/files/location'
但是表格显示了单元格值以及标签。 (例如:
"名称":"约翰"
而不是
约翰
).json中的数据如下所示(例如,1行中的数据):
{"timestamp":"2015-05-09T04:24:58Z","ip":"123.321.12.123","name":"John","id":"EX291236","job":"Programmer","phone":["number:2874723467","model:Alcatel","os:Android"]}
我也想知道如何包含"电话"显然需要以某种特殊方式处理的数据。希望你们可以帮助我。