在s3

时间:2018-02-22 15:23:40

标签: hadoop apache-spark hive amazon-emr parquet

我们的数据集在s3(镶木地板文件)中,格式如下,数据根据行号分为多个镶木地板文件。

data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...

我们有超过2000个此类文件,每个文件上有数百万条记录。所有这些文件具有相同数量的列和结构。如果我们需要在hive中对数据集进行分区,则其中一列中包含时间戳。我们如何指出数据集并在其上创建一个单独的hive外部表以供我们分析,或者可以使用spark来分析它?

感谢。

1 个答案:

答案 0 :(得分:4)

您只需指向包含文件的路径:

CREATE EXTERNAL TABLE parquet_hive (
  foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';