如何根据scala中数据集中的值复制数据?

时间:2016-05-30 10:24:03

标签: scala apache-spark

我有一个数据集

col col2 MaxCount

adf def 5

需要输出为:

col1 col2 EntryNumber

adf def 1

adf def 2

adf def 3

adf def 4

adf def 5

是否可以使用hive Context。请帮助我

1 个答案:

答案 0 :(得分:0)

val input = sc.textFile("filePath")
val result = input.mapPartitions(x => {
  x.flatMap(y => {
    val line = y.split(delimiter)
    val attribute = line(2)
    (i until attribute.toInt).map(i => {
      y+delimiter+i.toString
    })
  })
})
result.foreach(println)