尝试在pyspark中使用蜂巢上下文执行SQL查询时遇到问题,该问题通过jenkins执行(蜂巢连接仅在开发服务器上可行)
hive_df = connection(sql)
pd_df = hive_df.toPandas()
pd_df.head()
我从尝试将输出的hive_df转换为pandas df得到以下控制台输出。该查询是一个选择语句,其中包括两个左联接,并按所有(选定)分组
对原因有任何想法吗?
回溯(最近通话最近):文件 “ /home/hadoop/script_name.py”,第450行,在 pd_df = function_name(arg1,arg2,arg3)文件“ /home/hadoop/script_name.py”,行230,位于function_name中 pd_df = hive_df.toPandas()文件“ /usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/dataframe.py”, toPandas文件中的第1381行 “ /usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/dataframe.py”, 收集文件中的第280行 “ /usr/hdp/current/spark-client/python/lib/py4j-0.9-src.zip/py4j/java_gateway.py”, 第813行,位于通话文件中 “ /usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/utils.py”, 装饰文件中的第45行 “ /usr/hdp/current/spark-client/python/lib/py4j-0.9-src.zip/py4j/protocol.py”, 第308行,位于get_return_value