Question

尝试在pyspark中使用蜂巢上下文执行SQL查询时遇到问题，该问题通过jenkins执行（蜂巢连接仅在开发服务器上可行）

hive_df = connection(sql)
pd_df = hive_df.toPandas()
pd_df.head()

我从尝试将输出的hive_df转换为pandas df得到以下控制台输出。该查询是一个选择语句，其中包括两个左联接，并按所有（选定）分组

对原因有任何想法吗？

回溯（最近通话最近）：文件 “ /home/hadoop/script_name.py”，第450行，在 pd_df = function_name（arg1，arg2，arg3）文件“ /home/hadoop/script_name.py”，行230，位于function_name中 pd_df = hive_df.toPandas（）文件“ /usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/dataframe.py”， toPandas文件中的第1381行 “ /usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/dataframe.py”，收集文件中的第280行 “ /usr/hdp/current/spark-client/python/lib/py4j-0.9-src.zip/py4j/java_gateway.py”，第813行，位于通话文件中 “ /usr/hdp/current/spark-client/python/lib/pyspark.zip/pyspark/sql/utils.py”，装饰文件中的第45行 “ /usr/hdp/current/spark-client/python/lib/py4j-0.9-src.zip/py4j/protocol.py”，第308行，位于get_return_value

使用PySpark执行SQL发出问题，将hive_df转换为pandas

0 个答案: