标签: hive pyspark apache-spark-sql pyspark-sql
我在pyspark中有两个数据帧,我使用2个sparksql查询从一个配置单元数据库加载。
当我尝试使用df1.join(df2,df1.id_1=df2.id_2)加入2个数据帧时,需要很长时间。 当我调用JOIN时,Spark会重新执行df1和df2的sqls吗?
df1.join(df2,df1.id_1=df2.id_2)
底层数据库是HIVE
答案 0 :(得分:-1)
与使用Scala相比,Pyspark将更慢,因为在Python进程和JVM之间进行数据序列化,并且工作在Python中完成。