我仍在学习Pyspark,并尝试一些基本的RDD filter
和map
函数。如何基于逗号分隔的gzip
文件中的某些列值创建RDD?因此,我能够成功读取gzip文件,并且可以执行基本的count()
。现在,我想整理文件中的数据。这是我到目前为止的内容,但是它不能正确创建RDD(无错误)。我该怎么做?
s3File = sc.textFile(fileLocation).filter(lambda line: line.split(",")[2] == "Philadelphia").map(lambda line: (line[0],line[1])) .toDF()
print s3File.take(10)
一旦我完成了这一步,那么我想根据数组中的值过滤文件。因此,如果我有一个数组{"Philadelphia", "Detroit", "Washington DC"}
,我想创建一个单独的基于RDD(或相同)的第3列值,该值等于数组中的任何值。你能帮忙吗?
谢谢