如何使用org.apache.spark.sql.json读取分区文件?

时间:2018-02-19 10:12:01

标签: json amazon-s3 hive apache-spark-sql

我在AWS EMR中有一个包含超过400,000个分区的表。数据驻留在AWS S3上。这里每个分区都是一个包含1个gz文件的目录,其中包含一个Json数组。

所以我尝试使用org.apache.spark.sql.json来创建表,希望它能自动解析数组,并且我可以轻松地提取数据。

但以下命令失败。我在data.json.gz

中有data.jsons3://my/test/data/partition=1987个文件
CREATE TABLE `testTable` (
  `jsonArrData` STRING
, `partitionKey` INT )
USING org.apache.spark.sql.json
PARTITIONED BY (`partitionKey`)
LOCATION 's3://my/test/data/';

msck repair table testTable;

0 个答案:

没有答案