Spark从RDD中选择特定索引并保存到csv

时间:2018-03-26 09:55:21

标签: apache-spark spark-dataframe rdd

我使用spark.sparkContext.textFile命令从txt文件中选择值。后来我使用map和filter来获取带索引的值。

f3 = fxPs.map(lambda i: (i[0] + "," + i[1] + "," + i[2] + "," + i[4]).replace("|", ",,|" + i[0] + ",").replace("|", ",,|" + i[0] + ",")).map(lambda j: j.split("|"))

索引我[3]我不想选择。

vals = f3.map(lambda e: (e[0], e[1], e[2], e[3]))

我可以使用take(1)

检查值

但是当我在csv中保存它时,我收到一个错误:' IndexError:列表索引超出范围'。

索引:i [3]包含多个值,在列表中,我想删除它,只从csv中的索引中获取选定的值。

vals.toDF().write.format("csv").mode("append").save("/projects/")

谢谢

0 个答案:

没有答案