应用错误收集

我在AWS EMR中有一个包含超过400,000个分区的表。数据驻留在AWS S3上。这里每个分区都是一个包含1个gz文件的目录，其中包含一个Json数组。

所以我尝试使用org.apache.spark.sql.json来创建表，希望它能自动解析数组，并且我可以轻松地提取数据。

但以下命令失败。我在data.json.gz

中有data.json或s3://my/test/data/partition=1987个文件

CREATE TABLE `testTable` (
  `jsonArrData` STRING
, `partitionKey` INT )
USING org.apache.spark.sql.json
PARTITIONED BY (`partitionKey`)
LOCATION 's3://my/test/data/';

msck repair table testTable;

如何使用org.apache.spark.sql.json读取分区文件？

0 个答案: