我在Spark Dataframe中有一个大型数据集。我想将此数据保存到配置单元中。以下哪个选项可以为我带来最佳效果?
哪个会表现最佳?为什么?
答案 0 :(得分:0)
最好将SPARK Dataframe中的数据直接写入Hive表。
Hive表中存储的所有数据均以文件形式存储在HDFS中。
将数据保存在HDFS中并在其之上创建Hive外部表似乎是一项双重工作。
Spark具有将数据框中存在的数据直接保存到Hive表的功能,前提是您必须使用数据框中的架构创建一个Hive表,这要容易得多。
Spark从数据帧向hdfs或Hive表写入数据的性能取决于您拥有的集群设置。