我是Pyspark的新手。我需要从RDD中的某个列中找到不同的值。
我有一个逗号分隔的.txt文件,在S3上没有列标题。
rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])
print rddDistinct.take(10)
我在做什么错?最终,我想将生成的RDD存储在S3中(尚未到达那里)。如果文件在S3中存在,我想覆盖它。
答案 0 :(得分:0)
您需要在.distinct()
函数之后添加map
。
rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2]).distinct()
print rddDistinct.take(10)