无法使用PySpark与Hive连接收集数据

时间:2017-02-20 18:17:20

标签: python pyspark apache-spark-sql pyspark-sql

我目前正在尝试通过PySpark运行查询。一切顺利,连接和访问数据库。不幸的是,当我运行查询时;显示的唯一输出是列名称后跟None

我仔细阅读了文档但找不到任何答案。发布以下是我访问数据库的方式。

try:
    from pyspark import SparkContext
    from pyspark import SparkConf
    from pyspark.sql import SparkSession
    from pyspark.sql import SQLContext
    print ("Successfully imported Spark Modules")
except ImportError as e:
    print ("Can not import Spark Modules", e)
    sys.exit(1)


sc = SparkContext('local', 'pyspark')
sqlctx = SQLContext(sc)


df = sqlctx.read.format("jdbc").option("url", "jdbc:hive2://.....").option("dbtable", "(SELECT * FROM dtable LIMIT 10) df").load()


print df.show()

df.show()的输出只是列名。当我使用Pyhive运行相同的查询时,会填充数据,所以我认为它必须对我尝试使用PySpark加载数据表的方式做一些事情。

谢谢!

0 个答案:

没有答案