Question

entries = sc.textFile(...).map(lambda line: line.split("\t")).map(lambda row:(int(row[0]),row[1]))
some_set = set()
for entry in entries.collect():
    some_set.add(entry[1])

有没有更好的方法来做到这一点。我只想获得每个条目的第i个元素。

Answer 1

基本上你所描述的是：

set(entries.keys().distinct().collect())

或概括

set(entries.map(operator.itemgetter(i)).distinct().collect())

检索RDD的所有x [i]个元素

1 个答案: