在Python Spark RDD中组合两个不同的行

时间:2015-11-13 17:56:36

标签: apache-spark pyspark rdd

我在处理python spark rdd时遇到小问题。我的rdd看起来像

old_rdd = [( A1, Vector(V1)), (A2, Vector(V2)), (A3, Vector(V3)), ....].

我想使用flatMap,以获得新的rdd,如:

new_rdd = [((A1, A2), (V1, V2)), ((A1, A3), (V1, V3))] and so on.

问题是flatMap删除了像[(A1, V1, A2, V2)...].这样的元组你是否有任何替代建议,有或没有flatMap()。先感谢您。

1 个答案:

答案 0 :(得分:1)

Explicit sort in Cartesian transformation in Scala Spark有关。但是,我假设您已经清除RDD重复项,我将假设ids有一些简单的模式可以解析然后识别,为简单起见,我会考虑{{1而不是Lists

Vectors