应用错误收集

在Amazon S3上的Hive分区外部表上执行SparkSQl

时间：2019-04-04 19:10:05

标签： amazon-s3 hive apache-spark-sql

我计划在Amazon S3中的数据之上使用SparkSQl（而不是pySpark）。因此，我相信我需要创建Hive外部表，然后才能使用SparkSQL。但是S3数据已分区，并且还希望分区反映在Hive外部表中。每天管理配置单元表的最佳方法是什么。既然如此，可以创建每天新的分区或覆盖旧的分区以及该怎么做，以使Hive外部表保持最新状态？感谢您对此的宝贵建议。

1 个答案:

答案 0 :(得分：0)

创建一个中间表并使用日期插入覆盖分区加载到您的配置单元表。

Hive - 外部（动态）分区表
配置单元外部分区表
在预分区数据上创建外部表
从外部分区表中删除HIVE列
子目录上的S3配置单元外部表不起作用
配置单元：没有位置的外部分区表
Hive：Avro的外部分区表
在AWS EMR上创建Hive外部表
Hive外部表（非分区）在同一位置具有不同的文件结构
在Amazon S3上的Hive分区外部表上执行SparkSQl

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？