我正在尝试处理Pyspark中的增量数据。下面是当前系统。
历史记录有100条记录(将以百万为单位,为简单起见,现在假设100条记录)。作为最新加载的一部分,我们获得了20条记录,其中10条是插入,对现有记录有5条更新,其余5条是删除。
我们在out table表中有主键,timestamp列。现在,我想将此增量数据合并到历史记录中,以便应更新现有的5条记录,应删除现有数据中的5条记录,并应追加10条新记录,以便新数据集将具有105(100 +10 -5)条记录
到目前为止,我正在考虑合并历史记录和增量数据帧,并基于时间戳将获取最新记录。因为有标记来指示要删除现有记录的插入,更新还是删除。
有什么有效的方法来解决这个问题吗?