将地图转换为spark中的mapPartitions

时间:2018-05-02 01:49:27

标签: scala apache-spark

我有一个使用map transformatio n分析日志文件的代码。然后RDD转换为DF

val logData = sc.textFile("hdfs://quickstart.cloudera:8020/user/cloudera/syslog.txt")

val logDataDF = logData.map(rec => (rec.split(" ")(0), rec.split(" ")(2), rec.split(" ")(5))).toDF("month", "date", "process")

我想知道在这种情况下我是否可以使用mapPartitions而不是map

1 个答案:

答案 0 :(得分:0)

我不知道您的用例是什么,但您绝对可以使用map代替logDataDF。下面的代码将返回相同的val logDataDF = logData.mapPartitions(x => { val lst = scala.collection.mutable.ListBuffer[(String, String, String)]() while (x.hasNext) { val rec = x.next().split(" ") lst += ((rec(0), rec(2), rec(5))) } lst.iterator }).toDF("month", "date", "process")

{{1}}