应用错误收集

Pyspark数据帧加入需要很长时间

时间：2018-01-04 00:27:08

标签： hive pyspark apache-spark-sql pyspark-sql

我在pyspark中有两个数据帧，我使用2个sparksql查询从一个配置单元数据库加载。

当我尝试使用df1.join(df2,df1.id_1=df2.id_2)加入2个数据帧时，需要很长时间。当我调用JOIN时，Spark会重新执行df1和df2的sqls吗？

底层数据库是HIVE

1 个答案:

答案 0 :(得分：-1)

与使用Scala相比，Pyspark将更慢，因为在Python进程和JVM之间进行数据序列化，并且工作在Python中完成。