如何从spark中更新或删除hive表的记录,而不将整个表加载到dataframe中?

时间:2016-01-06 13:39:34

标签: scala apache-spark hive hivecontext spark-hive

我有一个包含大约200万条记录的hive orc表,目前要更新或删除我正在将整个表加载到数据帧中,然后更新并另存为新数据帧并通过覆盖模式保存(下面是命令),所以更新单个记录我需要加载和处理整个表数据吗?

我无法做objHiveContext.sql("更新myTable set columnName =''") 我使用的是Spark 1.4.1,Hive 1.2.1

myData.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("myTable")其中myData已更新为dataframe。

我如何摆脱加载整个2-3百万条记录只是为了更新单个hive表记录。

0 个答案:

没有答案