使用PySpark执行SQL发出问题,将hive_df转换为pandas

时间:2018-07-26 15:57:40

标签: sql pandas hive pyspark

尝试在pyspark中使用蜂巢上下文执行SQL查询时遇到问题,该问题通过jenkins执行(蜂巢连接仅在开发服务器上可行)

hive_df = connection(sql)
pd_df = hive_df.toPandas()
pd_df.head()

我从尝试将输出的hive_df转换为pandas df得到以下控制台输出。该查询是一个选择语句,其中包括两个左联接,并按所有(选定)分组

对原因有任何想法吗?

  

回溯(最近通话最近):文件   “ /home/hadoop/script_name.py”,第450行,在       pd_df = function_name(arg1,arg2,arg3)文件“ /home/hadoop/script_name.py”,行230,位于function_name中       pd_df = hive_df.toPandas()文件“ /usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/dataframe.py”,   toPandas文件中的第1381行   “ /usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/dataframe.py”,   收集文件中的第280行   “ /usr/hdp/current/spark-client/python/lib/py4j-0.9-src.zip/py4j/java_gateway.py”,   第813行,位于通话文件中   “ /usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/utils.py”,   装饰文件中的第45行   “ /usr/hdp/current/spark-client/python/lib/py4j-0.9-src.zip/py4j/protocol.py”,   第308行,位于get_return_value

0 个答案:

没有答案