我的hadoop集群安装了蜂巢和spark。此外,我有一台单独的工作站计算机,并且尝试从中连接到群集
我在这台机器上安装了spark并尝试使用以下命令进行连接:
pyspark --name testjob --master spark://hadoop-master.domain:7077
在结果中,我在spark WebUI页面上看到了正在运行的应用程序。
我想从我的工作站连接到配置单元(在群集中),但是我不能这样做。我将hive-site.xml配置放入本地工作站上的spark conf目录中,内容如下:
<configuration>
<property>
<name>metastore.thrift.uris</name>
<value>thrift://hadoop-master.domain:9083</value>
<description>IP address (or domain name) and port of the metastore host</description>
</property>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>hdfs://hadoop-master.domain:9000/user/hive/warehouse</value>
<description>Warehouse location</description>
</property>
<property>
<name>metastore.warehouse.dir</name>
<value>hdfs://hadoop-master.domain:9000/user/hive/warehouse</value>
<description>Warehouse location</description>
</property>
<property>
<name>spark.sql.hive.metastore.version</name>
<value>3.1.0</value>
<description>Metastore version</description>
</property>
</configuration>
我捆绑了此构造,但无法使其与外部配置单元数据库一起工作:
spark = SparkSession \
.builder \
.appName('test01') \
.config('hive.metastore.uris', "thrift://hadoop-master.domain:9083") \
.config("spark.sql.warehouse.dir", "hdfs://hadoop-master.domain:9000/user/hive/warehouse") \
.enableHiveSupport() \
.getOrCreate()
我应该怎么做才能从本地pyspark连接到远程配置单元数据库?