使用Haveing和Where IN子句将Sql查询转换为Spark

时间:2019-05-23 23:26:06

标签: apache-spark apache-spark-sql

我有要转换为Spark-scala的SQL查询

delete FROM tableA where (col1, col2)  in 
(select col1, col2  from tableA 
having max(col3)<=0  group by 1,2)

我正在尝试根据上述查询获取过滤后的数据帧-

sql("""SELECT * FROM tableA WHERE (col1, col2) 
NOT IN (SELECT col1, col2 FROM tableA GROUP BY 1,2 
HAVING max(col3)<=0)""")

查询无法正常工作。

遇到错误-

  

ERROR TaskSetManager:70-序列化结果的总大小为510   任务(1024.7 MB)大于spark.driver.maxResultSize(1024.0   MB)

此外,我很好奇如何将查询与数据框API一起使用

0 个答案:

没有答案