如何将火花数据帧写入ORC存储中的hive表

时间:2017-08-30 11:04:56

标签: apache-spark dataframe hive orc

thirdCateBrandres.createOrReplaceTempView("tempTable2")
sql("insert overwrite table temp_cate3_Brand_List select * from tempTable2")

上面的代码,thirdCateBrandres是一个spark DataFrame,注册为临时表,然后写入表temp_cate3_Brand_List,该表有30亿行,有7个字段,数据大小ORC + SNAPPY格式约为4GB。 这些代码大约需要20分钟。

如何加快程序的速度?

0 个答案:

没有答案