我在处理python spark rdd时遇到小问题。我的rdd看起来像
old_rdd = [( A1, Vector(V1)), (A2, Vector(V2)), (A3, Vector(V3)), ....].
我想使用flatMap,以获得新的rdd,如:
new_rdd = [((A1, A2), (V1, V2)), ((A1, A3), (V1, V3))] and so on.
问题是flatMap删除了像[(A1, V1, A2, V2)...].
这样的元组你是否有任何替代建议,有或没有flatMap()。先感谢您。
答案 0 :(得分:1)
与Explicit sort in Cartesian transformation in Scala Spark有关。但是,我假设您已经清除RDD
重复项,我将假设ids
有一些简单的模式可以解析然后识别,为简单起见,我会考虑{{1而不是Lists
Vectors