应用错误收集

Spark上的Spark SQL vs HIVE

时间：2016-08-08 03:22:03

标签： apache-spark hive apache-spark-sql spark-dataframe

Spark上的Spark-SQL和Hive之间的区别。我正在浏览spark和sql的文档，并尝试理解Spark上的Spark-SQL和HIVE之间的区别。

考虑一个情况，当我启动一个火花会话没有任何明显的hive支持，如复制hive-site.xml，然后在我的火花程序中保留一个表，数据和元数据将存储在哪里。将火花创造一个新的Hive Metastore（如德比）？
考虑一个案例，当我使用 hive支持发起火花会话时，例如复制hive-ste.xml并让火花感知现有的配置单元。然后，如果我坚持表格，数据和元数据将存储在我现有的HFS Metastore和HDFS仓库目录中。

如果我通过将执行引擎属性更改为Spark来运行HIVE，那么它与上述案例2相同吗？

感谢。

1 个答案:

答案 0 :(得分：0)

当你启动一个火花会话时，数据可以存储在S3或HDFS中。如果你没有明确地创建它，它本身就不会创建一个Hive会话。

如果您使用引用Hive表的'saveastable'子句，则为是。数据将保留在HDFS中。请记住，如果删除EMFS中的HDFS实例，表格将随其数据一起被删除。

不确定问题＃3

相关问题

SparkSQL与Spark上的Hive - 差异和利弊？

Apache Spark SQLContext和HiveContext有什么区别？

Spark DataFrame vs sqlContext

Spark上的Spark SQL vs HIVE

Spark与Hive每小时目录分区

Spark SQL-在HiveContext和DataFrame中运行查询

hivecontext与蜂巢中的火花引擎

在Mapreduce上执行Hive查询与在Spark上执行Hive之间的区别

HiveContext vs Spark SQL

SequenceFileInputFormat与MapredParquetInputFormat之间的性能

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？