我有一个包含大约200万条记录的hive orc表,目前要更新或删除我正在将整个表加载到数据帧中,然后更新并另存为新数据帧并通过覆盖模式保存(下面是命令),所以更新单个记录我需要加载和处理整个表数据吗?
我无法做objHiveContext.sql("更新myTable set columnName =''") 我使用的是Spark 1.4.1,Hive 1.2.1
myData.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("myTable")
其中myData已更新为dataframe。
我如何摆脱加载整个2-3百万条记录只是为了更新单个hive表记录。