如何在spark-sql上运行更新查询

时间:2016-08-09 03:22:44

标签: apache-spark pyspark pyspark-sql

我是spark的新手。无论如何,我可以在spark-SQL中操作Update命令。我已经创建了一个hive表,我操作了一些SQL语法查询,如insert,select,delete但无法运行update命令。我已经搜索了spark文档和https://docs.datastax.com/en/datastax_enterprise/4.6/datastax_enterprise/spark/sparkSqlSupportedSyntax.html网站。但我没有在他们最近的Spark SQL列表中找到UPDATE语法。请帮助我。我正在使用spark 2.0

Kalyan

5 个答案:

答案 0 :(得分:2)

一般的答案是,你不能。但是,如果使用ORC将数据存储在Hive中,则可以执行this之类的操作来使用Spark SQL更新表。

答案 1 :(得分:2)

DataFrame记录没有任何setter方法,因为DataFrames基于RDD,它们是不可变集合,这意味着您无法更改其状态。这就是为什么spark sql不支持更新。

答案 2 :(得分:0)

不,您无法进行更新查询,您必须确定如何以SELECT的方式进行更新。

答案 3 :(得分:0)

不,你不能在spark-hive中运行更新查询,它不支持事务查询。

答案 4 :(得分:0)

HDFS是一次写入文件系统,ORC是一次写入文件格式,因此使用基本文件和增量文件实现编辑,其中记录了插入,更新和删除操作。