Spark性能可将大型数据集从Dataframe保存到HDFS或Hive

时间:2019-04-14 11:25:04

标签: apache-spark hadoop hive bigdata

我在Spark Dataframe中有一个大型数据集。我想将此数据保存到配置单元中。以下哪个选项可以为我带来最佳效果?

  • 将此数据从SPARK Dataframe保存到hdfs并创建Hive external 桌子在上面吗?
  • 将数据从SPARK Dataframe写入Hive表 直接吗?

哪个会表现最佳?为什么?

1 个答案:

答案 0 :(得分:0)

最好将SPARK Dataframe中的数据直接写入Hive表。

Hive表中存储的所有数据均以文件形式存储在HDFS中。

将数据保存在HDFS中并在其之上创建Hive外部表似乎是一项双重工作。

Spark具有将数据框中存在的数据直接保存到Hive表的功能,前提是您必须使用数据框中的架构创建一个Hive表,这要容易得多。

Spark从数据帧向hdfs或Hive表写入数据的性能取决于您拥有的集群设置。