使用Spark SQL在Spark引擎上运行HQL项目

时间:2019-07-15 14:37:45

标签: apache-spark hive apache-spark-sql hiveql

我们有一个项目,该项目几乎从hive中读取数据并运行一系列hql查询(执行ETL)并将最终数据集存储到hive中。

我知道我们可以使用在以下火花引擎上运行的“ spark-SQL”运行hql

spark-sql –master yarn-client –conf spark.ui.port=40445 –executor-memory 15g –hiveconf load_date=`date +%Y-%m-%d` –driver-memory 10g –queue default –num-executors 20 –conf spark.yarn.executor.memoryOverhead=4096 –queue Q1 -i /app/hadoop/workspace/horf/hql_in_spark.hql

我们已将配置单元数据存储为文本或oci格式。 我们遇到了当前hql的一些性能问题,并在PROD中运行了数小时

  1. 是否建议使用上述语句为整个项目运行hql?优点和缺点是什么?

  2. 如果将这个项目转换为Spark SQL,与使用上述语句运行相比有什么好处?

我正试图找到一种方法在火花引擎中运行当前项目(hql),以期以最少的代码更改获得性能,以便我们可以相对较早地在PROD中运行它。

0 个答案:

没有答案