如何成功连接到Pyspark中的远程Hive服务器?

时间:2018-07-25 21:27:27

标签: apache-spark hadoop jdbc hive pyspark

我有一个远程Hive服务器,我想连接到它以访问本地Pyspark中的表。我尝试执行以下操作,但未返回正确的数据。下面是代码以及相应的输出。

from pyspark.sql import SparkSession

conf = SparkConf()
conf.set('spark.jars', 'C:\\Users\\user1\\mysql_jdbc_driver\\sqljdbc_6.0\\enu\\jre8\\sqljdbc42.jar')

spark = SparkSession.builder \
     .master("local") \
     .enableHiveSupport()\
     .appName("Hive Connection Test") \
     .config(conf=conf) \
     .getOrCreate()

df1 = spark.read.format("jdbc").option("url", "jdbc:hive2://<address>/dbase").option("dbtable", "snow")  .option("user", "user1").option("password", "abrakadabra").option("fetchsize", "10").load()

df1.show(10)

enter image description here

df1.printSchema

enter image description here

有什么想法吗?为什么返回的行没有显示正确的数据?

0 个答案:

没有答案