如何创建PairRDD?

时间:2018-10-16 18:48:48

标签: python scala apache-spark rdd

我需要创建一个PairRDD(draft_ids),其中key是项目的标识符,而value是通过split方法获得的所有字段。我们有rdd草稿

draft.take(3).foreach(println)

[Ljava.lang.String;@302bf7bb
[Ljava.lang.String;@3128929f
[Ljava.lang.String;@30037ad7

1 个答案:

答案 0 :(得分:0)

您需要调用mapToPair函数,该函数返回一个元组 例如在python中:

def myMap2pair(element):
    key = element.getKey()
    value = element.getValue()
    return key, value

draftKV = draft.map(myMap2pair)