Question

我在处理python spark rdd时遇到小问题。我的rdd看起来像

old_rdd = [( A1, Vector(V1)), (A2, Vector(V2)), (A3, Vector(V3)), ....].

我想使用flatMap，以获得新的rdd，如：

new_rdd = [((A1, A2), (V1, V2)), ((A1, A3), (V1, V3))] and so on.

问题是flatMap删除了像[(A1, V1, A2, V2)...].这样的元组你是否有任何替代建议，有或没有flatMap（）。先感谢您。

Answer 1

与Explicit sort in Cartesian transformation in Scala Spark有关。但是，我假设您已经清除RDD重复项，我将假设ids有一些简单的模式可以解析然后识别，为简单起见，我会考虑{{1而不是Lists

Vectors