标签: hadoop apache-spark pyspark spark-dataframe rdd
我需要一些帮助,以有效的方式加入两个数据集,并通过记录的密钥和最新时间戳对记录进行重复数据删除。
用例:需要为每个表运行每日增量刷新,并提供每天提取的快照 对于每个表,获取每日增量文件:1.5亿条记录需要针对历史记录完整卷文件(30亿)运行重复数据删除过程。重复数据删除过程需要由复合主键运行,并按时间戳获取最新记录。每条记录都包含密钥和时间戳。文件以ORC和镶木地板格式使用spark。