entries = sc.textFile(...).map(lambda line: line.split("\t")).map(lambda row:(int(row[0]),row[1]))
some_set = set()
for entry in entries.collect():
some_set.add(entry[1])
有没有更好的方法来做到这一点。我只想获得每个条目的第i个元素。
答案 0 :(得分:1)
基本上你所描述的是:
set(entries.keys().distinct().collect())
或概括
set(entries.map(operator.itemgetter(i)).distinct().collect())