如何使用reduceKey函数获取未配对的记录

时间:2018-06-26 20:32:56

标签: python apache-spark pyspark rdd

我想基于键合并2条记录,但也不想错过未配对的记录。例如,我有以下配对的RDD:

(key=1, (2, created_on))
(key=1, (3, created_on))
(key=2 (5, created_on))

现在,当我在函数reduceByKey上使用'created_on'作为最新 preserveScope: true, scope: $scope, 时,它将合并前2条记录并获得1条最新记录。这是正确的行为。

但是,缺少第三条记录。如何获取未配对的rdd记录,以便将其合并到合并的RDD中?

0 个答案:

没有答案