使用Apache Spark在Parquet文件系统中更新记录查询

时间:2016-11-22 09:25:48

标签: apache-spark parquet

我想使用apache spark更新apache镶木地板数据。我每天都有新记录,我必须做的是读取spark中的当前记录,然后对新旧记录进行一些聚合,之后我在镶木地板文件系统中更新这些记录。

1 个答案:

答案 0 :(得分:0)

首先将初始记录存储到hive表中,如下所示。

<强> sparkSession.read.parquet( “parquetFilePath”)。write.saveAsTable( “someHiveTable”)

使用新记录创建数据框

val newData:数据集[行] = //包含新记录的数据框

使用以下任何一种方法追加记录

a)newData.insertInto(“someHiveTable”)

b)newData.write.option(“mode”,“append”)。saveAsTable(“someHiveTable”)