从远程Spark连接到Hive Metastore

时间:2020-07-16 10:29:14

标签: apache-spark hadoop pyspark hive

我的hadoop集群安装了蜂巢和spark。此外,我有一台单独的工作站计算机,并且尝试从中连接到群集

我在这台机器上安装了spark并尝试使用以下命令进行连接:

pyspark --name testjob --master spark://hadoop-master.domain:7077

在结果中,我在spark WebUI页面上看到了正在运行的应用程序。

我想从我的工作站连接到配置单元(在群集中),但是我不能这样做。我将hive-site.xml配置放入本地工作站上的spark conf目录中,内容如下:

<configuration>
  <property>
    <name>metastore.thrift.uris</name>
    <value>thrift://hadoop-master.domain:9083</value>
    <description>IP address (or domain name) and port of the metastore host</description>
  </property>
  <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>hdfs://hadoop-master.domain:9000/user/hive/warehouse</value>
    <description>Warehouse location</description>
  </property>
  <property>
    <name>metastore.warehouse.dir</name>
    <value>hdfs://hadoop-master.domain:9000/user/hive/warehouse</value>
    <description>Warehouse location</description>
  </property>
  <property>
    <name>spark.sql.hive.metastore.version</name>
    <value>3.1.0</value>
    <description>Metastore version</description>
  </property>
</configuration>

我捆绑了此构造,但无法使其与外部配置单元数据库一起工作:

spark = SparkSession \
 .builder \
 .appName('test01') \
 .config('hive.metastore.uris', "thrift://hadoop-master.domain:9083") \
 .config("spark.sql.warehouse.dir", "hdfs://hadoop-master.domain:9000/user/hive/warehouse") \
 .enableHiveSupport() \
 .getOrCreate()

我应该怎么做才能从本地pyspark连接到远程配置单元数据库?

0 个答案:

没有答案