Pyspark数据帧加入需要很长时间

时间:2018-01-04 00:27:08

标签: hive pyspark apache-spark-sql pyspark-sql

我在pyspark中有两个数据帧,我使用2个sparksql查询从一个配置单元数据库加载。

当我尝试使用df1.join(df2,df1.id_1=df2.id_2)加入2个数据帧时,需要很长时间。 当我调用JOIN时,Spark会重新执行df1和df2的sqls吗?

底层数据库是HIVE

1 个答案:

答案 0 :(得分:-1)

与使用Scala相比,Pyspark将更慢,因为在Python进程和JVM之间进行数据序列化,并且工作在Python中完成。