我有要转换为Spark-scala的SQL查询
delete FROM tableA where (col1, col2) in
(select col1, col2 from tableA
having max(col3)<=0 group by 1,2)
我正在尝试根据上述查询获取过滤后的数据帧-
sql("""SELECT * FROM tableA WHERE (col1, col2)
NOT IN (SELECT col1, col2 FROM tableA GROUP BY 1,2
HAVING max(col3)<=0)""")
查询无法正常工作。
遇到错误-
ERROR TaskSetManager:70-序列化结果的总大小为510 任务(1024.7 MB)大于spark.driver.maxResultSize(1024.0 MB)
此外,我很好奇如何将查询与数据框API一起使用