Question

我有Pyspark代码，它将hql命令写入.hql文件。我想过使用子进程库直接运行hql文件，但是当我这样做时，我的hql没有运行，程序正在关闭...

我知道我可以使用sqlcontext从hql读取每一行并单独运行..但是我想从子进程命令运行hql文件这不可能吗???

注意：我执行spark-submit来运行.py代码

Answer 1

您可以使用spark-sql

直接在shell脚本中提交它

$ spark-sql –master yarn-client <..other parameters for executor memory etc..> -i ./script.hql

spark-sql在内部调用spark-submit。