检索RDD的所有x [i]个元素

时间:2017-01-13 19:53:06

标签: apache-spark pyspark

entries = sc.textFile(...).map(lambda line: line.split("\t")).map(lambda row:(int(row[0]),row[1]))
some_set = set()
for entry in entries.collect():
    some_set.add(entry[1])

有没有更好的方法来做到这一点。我只想获得每个条目的第i个元素。

1 个答案:

答案 0 :(得分:1)

基本上你所描述的是:

set(entries.keys().distinct().collect())

或概括

set(entries.map(operator.itemgetter(i)).distinct().collect())