Spark上的Spark-SQL和Hive之间的区别。 我正在浏览spark和sql的文档,并尝试理解Spark上的Spark-SQL和HIVE之间的区别。
hive-site.xml
,然后在我的火花程序中保留一个表,数据和元数据将存储在哪里。将火花创造一个新的Hive Metastore(如德比)?hive-ste.xml
并让火花感知现有的配置单元。然后,如果我坚持表格,数据和元数据将存储在我现有的HFS Metastore和HDFS仓库目录中。感谢。
答案 0 :(得分:0)
当你启动一个火花会话时,数据可以存储在S3或HDFS中。如果你没有明确地创建它,它本身就不会创建一个Hive会话。
如果您使用引用Hive表的'saveastable'子句,则为是。数据将保留在HDFS中。请记住,如果删除EMFS中的HDFS实例,表格将随其数据一起被删除。
不确定问题#3