我目前正在探索如何通过sqlContext
调用大型hql文件(在select语句中包含100行插入)。
另一件事是,hqls
文件是参数化的,所以在从sqlContext
调用它时,我也希望传递参数。
已经浏览了很多博客和帖子,但没有找到任何答案。
我尝试的另一件事是将rdd
的输出存储到变量中。
pyspark
max_date=sqlContext.sql("select count(rec_insert_date) from table")
现在想要将max_date
作为变量传递给下一个rdd
incremetal_data=sqlConext.sql(s"select count(1) from table2 where rec_insert_date > $max_date")
但上面的代码无效。