Question

我仍在学习Pyspark，并尝试一些基本的RDD filter和map函数。如何基于逗号分隔的gzip文件中的某些列值创建RDD？因此，我能够成功读取gzip文件，并且可以执行基本的count()。现在，我想整理文件中的数据。这是我到目前为止的内容，但是它不能正确创建RDD（无错误）。我该怎么做？

s3File = sc.textFile(fileLocation).filter(lambda line: line.split(",")[2] == "Philadelphia").map(lambda line: (line[0],line[1]))                       .toDF()
print s3File.take(10)

一旦我完成了这一步，那么我想根据数组中的值过滤文件。因此，如果我有一个数组{"Philadelphia", "Detroit", "Washington DC"}，我想创建一个单独的基于RDD（或相同）的第3列值，该值等于数组中的任何值。你能帮忙吗？谢谢

使用Pyspark根据列中的值拆分CSV

0 个答案: