我在AWS EMR中有一个包含超过400,000个分区的表。数据驻留在AWS S3上。这里每个分区都是一个包含1个gz文件的目录,其中包含一个Json数组。
所以我尝试使用org.apache.spark.sql.json
来创建表,希望它能自动解析数组,并且我可以轻松地提取数据。
但以下命令失败。我在data.json.gz
data.json
或s3://my/test/data/partition=1987
个文件
CREATE TABLE `testTable` (
`jsonArrData` STRING
, `partitionKey` INT )
USING org.apache.spark.sql.json
PARTITIONED BY (`partitionKey`)
LOCATION 's3://my/test/data/';
msck repair table testTable;