Spark GroupBy保存到多个文件

时间:2017-09-01 15:36:28

标签: apache-spark

我有以下格式的人员记录列表:

case class Person(fName:String, city:String) 

val l=List(Person("A","City1"),Person("B","City2"),Person("C","City1")) 

val rdd:RDD[Person]=sc.parallelize(l) 

val groupBy:RDD[(String, Iterable[Person])]=rdd.groupBy(_.city) 

我想通过不同文件中的记录保存这些组(例如按城市)。请帮助我一些人。

我尝试了这个,但无法创建这些文件

groupBy.foreach(x=>{ 
x._2.toList.toDF().rdd.saveAsObjectFile(s"file:///tmp/files/${x._1}") 
}) 

由于 阿伦

0 个答案:

没有答案