Spark数据框,JOIN两个数据集,并通过记录

时间:2017-05-04 17:09:13

标签: hadoop apache-spark pyspark spark-dataframe rdd

我需要一些帮助,以有效的方式加入两个数据集,并通过记录的密钥和最新时间​​戳对记录进行重复数据删除。

用例:需要为每个表运行每日增量刷新,并提供每天提取的快照
对于每个表,获取每日增量文件:1.5亿条记录需要针对历史记录完整卷文件(30亿)运行重复数据删除过程。重复数据删除过程需要由复合主键运行,并按时间戳获取最新记录。每条记录都包含密钥和时间戳。文件以ORC和镶木地板格式使用spark。

0 个答案:

没有答案