Question

我是Pyspark的新手。我需要从RDD中的某个列中找到不同的值。

我有一个逗号分隔的.txt文件，在S3上没有列标题。

    rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2])                                                                                                                                                                                                                         
    print rddDistinct.take(10)

我在做什么错？最终，我想将生成的RDD存储在S3中（尚未到达那里）。如果文件在S3中存在，我想覆盖它。

Answer 1

您需要在.distinct()函数之后添加map。

rddDistinct = sc.textFile(fileLocation).map(lambda x: x[2]).distinct()
print rddDistinct.take(10)

从文件中的列中获取不同的值以创建RDD

1 个答案: