使用spark将DataFrame保存为HIVE表失败

时间:2017-02-03 17:06:45

标签: scala apache-spark apache-spark-sql

我有一个大数据框,并尝试使用以下命令将其保存为HIVE表。

df.write.options(Map("path" -> "/workspace/ny/df")).saveAsTable("db_name.table_name") 

我正在静态分配资源,但saveAsTable由于内存不足问题而失败。我读到了post的一个答案,saveAsTable就像留在记忆中一样。那是对的吗?那我怎么能创建外部表呢?

我的另一个问题是,即使我的桌子也不大,saveAsTable需要很长时间,因为更新了一些统计数据,我读了here。这也是正确的吗?正在计算什么类型的统计数据以及如何关闭它们?

P.S。我的桌子在Parquet。

0 个答案:

没有答案