应用错误收集

时间：2019-08-01 14:57:55

标签： apache-spark hadoop hive pyspark pyspark-sql

我尝试使用PySpark访问Hive ORC事务表（在HDFS上具有基础增量文件），但是我无法通过sparkContext / hiveContext读取事务表。

/ mydim / delta_0117202_0117202

/ mydim / delta_0117203_0117203

答案 0 :(得分：1)

Hive-ACID 表尚未正式支持 Spark ，请获取 full dump/incremental dump of acid table 到常规的 hive orc/parquet 分区表，然后使用spark读取数据。

有一个Open Jira saprk-15348，增加了对读取 Hive ACID 表的支持。

如果在酸性表（来自配置单元）上运行 major compaction ，则spark只能读取 base_XXX 目录，但不能读取增量在此jira中解决的目录Spark-16996。
有一些解决方法，如本链接中所述，使用SPARK-LLAP读取酸表。
我认为从 HDP-3.X 开始HiveWareHouseConnector能够支持读取HiveAcid表。