我有一个远程Hive服务器,我想连接到它以访问本地Pyspark中的表。我尝试执行以下操作,但未返回正确的数据。下面是代码以及相应的输出。
from pyspark.sql import SparkSession
conf = SparkConf()
conf.set('spark.jars', 'C:\\Users\\user1\\mysql_jdbc_driver\\sqljdbc_6.0\\enu\\jre8\\sqljdbc42.jar')
spark = SparkSession.builder \
.master("local") \
.enableHiveSupport()\
.appName("Hive Connection Test") \
.config(conf=conf) \
.getOrCreate()
df1 = spark.read.format("jdbc").option("url", "jdbc:hive2://<address>/dbase").option("dbtable", "snow") .option("user", "user1").option("password", "abrakadabra").option("fetchsize", "10").load()
df1.show(10)
df1.printSchema
有什么想法吗?为什么返回的行没有显示正确的数据?