我们有一个项目,该项目几乎从hive中读取数据并运行一系列hql查询(执行ETL)并将最终数据集存储到hive中。
我知道我们可以使用在以下火花引擎上运行的“ spark-SQL”运行hql
spark-sql –master yarn-client –conf spark.ui.port=40445 –executor-memory 15g –hiveconf load_date=`date +%Y-%m-%d` –driver-memory 10g –queue default –num-executors 20 –conf spark.yarn.executor.memoryOverhead=4096 –queue Q1 -i /app/hadoop/workspace/horf/hql_in_spark.hql
我们已将配置单元数据存储为文本或oci格式。 我们遇到了当前hql的一些性能问题,并在PROD中运行了数小时
是否建议使用上述语句为整个项目运行hql?优点和缺点是什么?
如果将这个项目转换为Spark SQL,与使用上述语句运行相比有什么好处?
我正试图找到一种方法在火花引擎中运行当前项目(hql),以期以最少的代码更改获得性能,以便我们可以相对较早地在PROD中运行它。