我想使用apache spark更新apache镶木地板数据。我每天都有新记录,我必须做的是读取spark中的当前记录,然后对新旧记录进行一些聚合,之后我在镶木地板文件系统中更新这些记录。
答案 0 :(得分:0)
首先将初始记录存储到hive表中,如下所示。
<强> sparkSession.read.parquet( “parquetFilePath”)。write.saveAsTable( “someHiveTable”)强>
使用新记录创建数据框
val newData:数据集[行] = //包含新记录的数据框
使用以下任何一种方法追加记录
a)newData.insertInto(“someHiveTable”)
b)newData.write.option(“mode”,“append”)。saveAsTable(“someHiveTable”)。