Spark上的Spark SQL vs HIVE

时间:2016-08-08 03:22:03

标签: apache-spark hive apache-spark-sql spark-dataframe

Spark上的Spark-SQL和Hive之间的区别。 我正在浏览spark和sql的文档,并尝试理解Spark上的Spark-SQL和HIVE之间的区别。

  1. 考虑一个情况,当我启动一个火花会话没有任何明显的hive支持,如复制hive-site.xml,然后在我的火花程序中保留一个表,数据和元数据将存储在哪里。将火花创造一个新的Hive Metastore(如德比)?
  2. 考虑一个案例,当我使用 hive支持发起火花会话时,例如复制hive-ste.xml并让火花感知现有的配置单元。然后,如果我坚持表格,数据和元数据将存储在我现有的HFS Metastore和HDFS仓库目录中。
  3. 如果我通过将执行引擎属性更改为Spark来运行HIVE,那么它与上述案例2相同吗?
  4. 感谢。

1 个答案:

答案 0 :(得分:0)

  1. 当你启动一个火花会话时,数据可以存储在S3或HDFS中。如果你没有明确地创建它,它本身就不会创建一个Hive会话。

  2. 如果您使用引用Hive表的'saveastable'子句,则为是。数据将保留在HDFS中。请记住,如果删除EMFS中的HDFS实例,表格将随其数据一起被删除。

  3. 不确定问题#3