标签: python apache-spark pyspark rdd
现在我有一个以句子为元素的RDD。如何使用map()和split()按空格分割每个句子,并使每个单词成为RDD的元素而不是返回的列表分裂()?
答案 0 :(得分:0)
你应该使用flatMap()来获取RDD中的每个单词,这样你就可以获得RDD [String]。试试如下
val rdd=sc.textFile(filePath) rdd.flatMap(line=>line.split(" "))
上面的代码是scala,请在python中编写相应的代码。