Spark RDD:获取行号

时间:2015-04-14 02:26:22

标签: hadoop apache-spark rdd

如何从我正在处理的RDD中获取行号:

val rdd2 = rdd1
  .filter(row => {
          // get row number
      }
      true
  })

1 个答案:

答案 0 :(得分:3)

val rdd2 = rdd1.zipWithIndex.filter{ 
    case (row, index) => {
      // row number is index. (but is not fixed, unless RDD is sorted)
}