Question

我们有一个项目，该项目几乎从hive中读取数据并运行一系列hql查询（执行ETL）并将最终数据集存储到hive中。

我知道我们可以使用在以下火花引擎上运行的“ spark-SQL”运行hql

spark-sql –master yarn-client –conf spark.ui.port=40445 –executor-memory 15g –hiveconf load_date=`date +%Y-%m-%d` –driver-memory 10g –queue default –num-executors 20 –conf spark.yarn.executor.memoryOverhead=4096 –queue Q1 -i /app/hadoop/workspace/horf/hql_in_spark.hql

我们已将配置单元数据存储为文本或oci格式。我们遇到了当前hql的一些性能问题，并在PROD中运行了数小时

是否建议使用上述语句为整个项目运行hql？优点和缺点是什么？
如果将这个项目转换为Spark SQL，与使用上述语句运行相比有什么好处？

我正试图找到一种方法在火花引擎中运行当前项目（hql），以期以最少的代码更改获得性能，以便我们可以相对较早地在PROD中运行它。

使用Spark SQL在Spark引擎上运行HQL项目

0 个答案: