在Amazon S3上的Hive分区外部表上执行SparkSQl

时间:2019-04-04 19:10:05

标签: amazon-s3 hive apache-spark-sql

我计划在Amazon S3中的数据之上使用SparkSQl(而不是pySpark)。因此,我相信我需要创建Hive外部表,然后才能使用SparkSQL。但是S3数据已分区,并且还希望分区反映在Hive外部表中。每天管理配置单元表的最佳方法是什么。既然如此,可以创建每天新的分区或覆盖旧的分区以及该怎么做,以使Hive外部表保持最新状态? 感谢您对此的宝贵建议。

1 个答案:

答案 0 :(得分:0)

创建一个中间表并使用日期插入覆盖分区加载到您的配置单元表。