我尝试使用PySpark访问Hive ORC事务表(在HDFS上具有基础增量文件),但是我无法通过sparkContext / hiveContext读取事务表。
/ mydim / delta_0117202_0117202
/ mydim / delta_0117203_0117203
答案 0 :(得分:1)
Hive-ACID 表尚未正式支持
Spark
,请获取full dump/incremental dump of acid table
到常规的hive orc/parquet
分区表,然后使用spark读取数据。
有一个Open Jira saprk-15348,增加了对读取 Hive ACID
表的支持。
如果在酸性表(来自配置单元)上运行 major compaction
,则spark只能读取 base_XXX
目录,但不能读取增量在此jira中解决的目录Spark-16996。
有一些解决方法,如本链接中所述,使用SPARK-LLAP读取酸表。
我认为从 HDP-3.X
开始HiveWareHouseConnector能够支持读取HiveAcid表。