如何用python将spark中的每个元素拆分成spark?

时间:2016-10-24 08:15:20

标签: python apache-spark pyspark rdd

现在我有一个以句子为元素的RDD。如何使用map()和split()按空格分割每个句子,并使每个单词成为RDD的元素而不是返回的列表分裂()?

1 个答案:

答案 0 :(得分:0)

你应该使用flatMap()来获取RDD中的每个单词,这样你就可以获得RDD [String]。试试如下

val rdd=sc.textFile(filePath)
rdd.flatMap(line=>line.split(" "))

上面的代码是scala,请在python中编写相应的代码。