我目前正在尝试通过PySpark运行查询。一切顺利,连接和访问数据库。不幸的是,当我运行查询时;显示的唯一输出是列名称后跟None
。
我仔细阅读了文档但找不到任何答案。发布以下是我访问数据库的方式。
try:
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
print ("Successfully imported Spark Modules")
except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)
sc = SparkContext('local', 'pyspark')
sqlctx = SQLContext(sc)
df = sqlctx.read.format("jdbc").option("url", "jdbc:hive2://.....").option("dbtable", "(SELECT * FROM dtable LIMIT 10) df").load()
print df.show()
df.show()
的输出只是列名。当我使用Pyhive
运行相同的查询时,会填充数据,所以我认为它必须对我尝试使用PySpark加载数据表的方式做一些事情。
谢谢!