从文件中的列中获取不同的值以创建RDD

时间:2019-11-01 16:16:17

标签: pyspark

我是Pyspark的新手。我需要从RDD中的某个列中找到不同的值。

我有一个逗号分隔的.txt文件,在S3上没有列标题。

    rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])                                                                                                                                                                                                                         
    print rddDistinct.take(10) 

我在做什么错?最终,我想将生成的RDD存储在S3中(尚未到达那里)。如果文件在S3中存在,我想覆盖它。

1 个答案:

答案 0 :(得分:0)

您需要在.distinct()函数之后添加map

rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2]).distinct()
print rddDistinct.take(10)