应用错误收集

使用Apache Spark在Parquet文件系统中更新记录查询

时间：2016-11-22 09:25:48

标签： apache-spark parquet

我想使用apache spark更新apache镶木地板数据。我每天都有新记录，我必须做的是读取spark中的当前记录，然后对新旧记录进行一些聚合，之后我在镶木地板文件系统中更新这些记录。

1 个答案:

答案 0 :(得分：0)

首先将初始记录存储到hive表中，如下所示。

<强> sparkSession.read.parquet（ “parquetFilePath”）。write.saveAsTable（ “someHiveTable”）

使用新记录创建数据框

val newData：数据集[行] = //包含新记录的数据框

使用以下任何一种方法追加记录

a）newData.insertInto（“someHiveTable”）

b）newData.write.option（“mode”，“append”）。saveAsTable（“someHiveTable”）。