使用Pyspark根据列中的值拆分CSV

时间:2019-07-24 00:42:24

标签: pyspark

我仍在学习Pyspark,并尝试一些基本的RDD filtermap函数。如何基于逗号分隔的gzip文件中的某些列值创建RDD?因此,我能够成功读取gzip文件,并且可以执行基本的count()。现在,我想整理文件中的数据。这是我到目前为止的内容,但是它不能正确创建RDD(无错误)。我该怎么做?

s3File = sc.textFile(fileLocation).filter(lambda line: line.split(",")[2] == "Philadelphia").map(lambda line: (line[0],line[1]))                       .toDF()
print s3File.take(10)

一旦我完成了这一步,那么我想根据数组中的值过滤文件。因此,如果我有一个数组{"Philadelphia", "Detroit", "Washington DC"},我想创建一个单独的基于RDD(或相同)的第3列值,该值等于数组中的任何值。你能帮忙吗? 谢谢

0 个答案:

没有答案