PySpark-从集合传递到RDD

时间:2018-12-10 18:00:41

标签: python apache-spark pyspark hdfs

我进行了以下转换:

rdd1.map(lambda line: line[3]).countByValue()

我该如何存储以便将结果保存为TextFile?

因为我尝试使用:

rdd1.map(lambda line: line[3]).countByValue().saveAsTextFile("directory.txt")

但是,saveAsTextFile不是集合的一部分。我该怎么办?

1 个答案:

答案 0 :(得分:1)

countByValue()将结果转换为Map集合而不是RDD。

saveAsTextFile()被定义为在RDD上运行,而不是在地图/集合上工作。

与scala(countByKey)类似的问题是here

您需要并行化地图并创建RDD,然后另存为文本文件