应用错误收集

Spark性能可将大型数据集从Dataframe保存到HDFS或Hive

时间：2019-04-14 11:25:04

标签： apache-spark hadoop hive bigdata

我在Spark Dataframe中有一个大型数据集。我想将此数据保存到配置单元中。以下哪个选项可以为我带来最佳效果？

将此数据从SPARK Dataframe保存到hdfs并创建Hive external 桌子在上面吗？
将数据从SPARK Dataframe写入Hive表直接吗？

哪个会表现最佳？为什么？

1 个答案:

答案 0 :(得分：0)

最好将SPARK Dataframe中的数据直接写入Hive表。

Hive表中存储的所有数据均以文件形式存储在HDFS中。

将数据保存在HDFS中并在其之上创建Hive外部表似乎是一项双重工作。

Spark具有将数据框中存在的数据直接保存到Hive表的功能，前提是您必须使用数据框中的架构创建一个Hive表，这要容易得多。

Spark从数据帧向hdfs或Hive表写入数据的性能取决于您拥有的集群设置。