如何在GCP Apache Spark Dataproc Cluster上将Apache Hive升级到版本3

时间:2019-05-08 14:12:20

标签: apache-spark hive google-cloud-dataproc

出于某种原因,我想在Google Cloud Dataproc(1.4.3)Spark Cluster上将Apache Hive的版本从2.3.4升级到3。如何升级Hive版本,同时又保持与Cloud Dataproc工具的兼容性?

1 个答案:

答案 0 :(得分:1)

不幸的是,没有真正的方法来保证与此类自定义的兼容性,并且已知与currently released spark versions being able to talk to Hive 3.x的不兼容,因此除非您设法交叉编译,否则您很可能会遇到问题。您需要的所有版本。

在任何情况下,如果只想让功能的有限子集起作用,最简单的方法就是将自定义jarfile转储到:

/usr/lib/hive/lib/
通过初始化操作在所有节点上

。这样做之后,您可能需要重新启动主节点以更新Hive Metastore和Hiveserver2,或者至少正在运行:

sudo systemctl restart hive-metastore
sudo systemctl restart hive-server2

在您的主节点上。

对于Spark问题,您可能还需要自定义内部版本的Spark,并在以下位置替换jarfile:

/usr/lib/spark/jars/