PySpark无法通过sparkContext / hiveContext读取Hive ORC事务表?我们可以使用Pyspark更新/删除配置单元表数据吗?

时间:2019-08-01 14:57:55

标签: apache-spark hadoop hive pyspark pyspark-sql

我尝试使用PySpark访问Hive ORC事务表(在HDFS上具有基础增量文件),但是我无法通过sparkContext / hiveContext读取事务表。

/ mydim / delta_0117202_0117202

/ mydim / delta_0117203_0117203

1 个答案:

答案 0 :(得分:1)

  

Hive-ACID 表尚未正式支持 Spark ,请获取    full dump/incremental dump of acid table 到常规的 hive orc/parquet 分区表,然后使用spark读取数据。

有一个Open Jira saprk-15348,增加了对读取 Hive ACID 表的支持。

  • 如果在酸性表(来自配置单元)上运行 major compaction ,则spark只能读取 base_XXX 目录,但不能读取增量在此jira中解决的目录Spark-16996

  • 有一些解决方法,如本链接中所述,使用SPARK-LLAP读取酸表。

  • 我认为 HDP-3.X 开始HiveWareHouseConnector能够支持读取HiveAcid表。