Question

我是Scala和Spark的新手。我在Spark Shell工作我需要分组依据并按此文件的第一个三个字段排序，查找重复项。如果我在组中发现重复项，我需要在第三个字段附加一个计数器，从＆＃34; 1＆＃34开始;对于重复组中的每个记录，按＆＃34; 1＆＃34;递增。将计数器重置回＆＃34; 1＆＃34;在阅读新小组时如果没有找到重复项，那么只需附加一个＆＃34; 1＆＃34;的计数器。

CSV文件包含以下内容：
（＆＃34; 00111＆＃34;＆＃34; 00111651＆＃34;，的＆＃34; 4444＆＃34; 下，＆＃34; PY＆＃34;＆＃34; MA＆＃ 34）
（＆＃34; 00111＆＃34;＆＃34; 00111651＆＃34;，的＆＃34; 4444＆＃34; 下，＆＃34; XX＆＃34;＆＃34; MA＆＃ 34）
（＆＃34; 00112＆＃34;＆＃34; 00112P11＆＃34;，的＆＃34; 5555＆＃34; 下，＆＃34; TA＆＃34;＆＃34; MA＆＃ 34;）

val csv = sc.textFile（＆＃34; file.csv＆＃34;）
val recs = csv.map（line =＆gt; line.split（＆＃34;，＆＃34;）

如果我在上面的示例中正确应用逻辑，则生成的rec的RDD将如下所示：
（＆＃34; 00111＆＃34;＆＃34; 00111651＆＃34;，的＆＃34; 44441＆＃34; 下，＆＃34; PY＆＃34;＆＃34; MA＆＃ 34）
（＆＃34; 00111＆＃34;＆＃34; 00111651＆＃34;，的＆＃34; 44442＆＃34; 下，＆＃34; XX＆＃34;＆＃34; MA＆＃ 34）
（＆＃34; 00112＆＃34;＆＃34; 00112P11＆＃34;，的＆＃34; 55551＆＃34; 下，＆＃34; TA＆＃34;＆＃34; MA＆＃ 34）

Answer 1

如何对数据进行分组，更改数据并将其放回原处：

val csv = sc.parallelize(List(
  "00111,00111651,4444,PY,MA",
  "00111,00111651,4444,XX,MA",
  "00112,00112P11,5555,TA,MA"
))
val recs = csv.map(_.split(","))
val grouped = recs.groupBy(line=>(line(0),line(1), line(2)))
val numbered = grouped.mapValues(dataList=>
      dataList.zipWithIndex.map{case(data, idx) => data match {
          case Array(fst,scd,thd,rest@_*) => Array(fst,scd,thd+(idx+1)) ++ rest
      }
    })
numbered.flatMap{case (key, values)=>values}

Answer 2

同时对数据进行分组，更改数据，然后将数据放回去。

 val lists= List(("00111","00111651","4444","PY","MA"),
("00111","00111651","4444","XX","MA"),
("00112","00112P11","5555","TA","MA"))

val grouped = lists.groupBy{case(a,b,c,d,e) => (a,b,c)}
val indexed = grouped.mapValues(
               _.zipWithIndex
                .map {case ((a,b,c,d,e), idx) => (a,b,c + (idx+1).toString,d,e)}

val unwrapped = indexed.flatMap(_._2) 
//List((00112,00112P11,55551,TA,MA),
//     (00111,00111651,44442,XX ,MA),
//     (00111,00111651,44441,PY,MA))

处理数组的版本（任意长度> = 3）

val lists= List(Array("00111","00111651","4444","PY","MA"),
Array("00111","00111651","4444","XX","MA"),
Array("00112","00112P11","5555","TA","MA"))
val grouped = lists.groupBy{_.take(3)} 
val indexed = grouped.mapValues(
      _.zipWithIndex
       .map {case (Array(a,b,c, rest@_*), idx) => Array(a,b,c+ (idx+1).toString) ++ rest})

val unwrapped = indexed.flatMap(_._2)  
// List(Array(00112, 00112P11, 55551, TA, MA),
//      Array(00111, 00111651, 44441, XX, MA),
//      Array(00111, 00111651, 44441, PY, MA))

如何按RDD中的选定数量的字段进行分组，以根据这些字段查找重复项

2 个答案: