应用错误收集

我需要一些帮助，以有效的方式加入两个数据集，并通过记录的密钥和最新时间戳对记录进行重复数据删除。

用例：需要为每个表运行每日增量刷新，并提供每天提取的快照
对于每个表，获取每日增量文件：1.5亿条记录需要针对历史记录完整卷文件（30亿）运行重复数据删除过程。重复数据删除过程需要由复合主键运行，并按时间戳获取最新记录。每条记录都包含密钥和时间戳。文件以ORC和镶木地板格式使用spark。