查询优化:通过SparkSQL / HiveContext访问Hive / Hadoop时,查询优化在哪里进行?

时间:2018-08-16 18:08:06

标签: hadoop hive apache-spark-sql query-optimization hiveql

有人可以解释查询优化是在代码级别还是在数据库级别进行的。

据我了解,访问数据库的代码/ API不了解数据库访问模式以及如何存储数据,因此通过数据库(Hive)进行优化比使用Spark / Hive(API)更有意义。但是有人可以弄清楚当Hive驱动程序/ SparkSQL向数据库发送查询以进行处理时究竟发生了什么。查询优化在哪里发生?

此外,我认为DAG的创建/解析也取决于查询优化,因为基于优化的查询计划,DAG可能更短或更大?有人可以添加查询优化发生时DAG的处理方式吗?

PS:我是Spark / Hadoop / Hive的初学者,所以如果我理解不对,请纠正我。

0 个答案:

没有答案