从scala中的地图((元组),(元组))中读取元组的各个元素

时间:2016-08-19 09:10:28

标签: scala hadoop apache-spark hive

reducebykey的生成输出是一个ShuffledRDD,其键值既是多个字段的数组。我需要提取所有字段并写入hive表。

以下是我正在尝试的代码:

sqlContext.sql(s"select SUBS_CIRCLE_ID,SUBS_MSISDN,EVENT_START_DT,RMNG_NW_OP_KEY, ACCESS_TYPE  FROM FACT.FCT_MEDIATED_USAGE_DATA")
val USAGE_DATA_Reduce = USAGE_DATA.map{ USAGE_DATA => ((USAGE_DATA.getShort(0), USAGE_DATA.getString(1),USAGE_DATA.getString(2)),
(USAGE_DATA.getInt(3), USAGE_DATA.getInt(4)))}.reduceByKey((x, y) => (math.min(x._1, y._1), math.max(x._2,y._2)))

我期待的最终输出是以下五个字段: SUBS_CIRCLE_ID,SUBS_MSISDN,EVENT_START_DT,MINVAL,MAXVAL

这样它就可以直接插入到hive表中

1 个答案:

答案 0 :(得分:0)

如果你的意思是:

  

给定RDD[(TupleN, TupleM)],如何将键和值元组的每个记录元素映射到单个连接字符串中?

这是一个简化版本,你应该可以推断这个来解决你的问题:

val keyValueRdd = sc.parallelize(Seq(
  (1, "key1") -> (10, "value1", "A"),
  (2, "key2") -> (20, "value2", "B"),
  (3, "key3") -> (30, "value3", "C")
))

val asStrings: RDD[String] = keyValueRdd.map {
  case ((k1, k2), (v1, v2, v3)) => List(k1, k2, v1, v2, v3).mkString(",")
}

asStrings.foreach(println)
// prints:
// 3,key3,30,value3,C
// 2,key2,20,value2,B
// 1,key1,10,value1,A