reducebykey的生成输出是一个ShuffledRDD,其键值既是多个字段的数组。我需要提取所有字段并写入hive表。
以下是我正在尝试的代码:
sqlContext.sql(s"select SUBS_CIRCLE_ID,SUBS_MSISDN,EVENT_START_DT,RMNG_NW_OP_KEY, ACCESS_TYPE FROM FACT.FCT_MEDIATED_USAGE_DATA")
val USAGE_DATA_Reduce = USAGE_DATA.map{ USAGE_DATA => ((USAGE_DATA.getShort(0), USAGE_DATA.getString(1),USAGE_DATA.getString(2)),
(USAGE_DATA.getInt(3), USAGE_DATA.getInt(4)))}.reduceByKey((x, y) => (math.min(x._1, y._1), math.max(x._2,y._2)))
我期待的最终输出是以下五个字段: SUBS_CIRCLE_ID,SUBS_MSISDN,EVENT_START_DT,MINVAL,MAXVAL
这样它就可以直接插入到hive表中
答案 0 :(得分:0)
如果你的意思是:
给定
RDD[(TupleN, TupleM)]
,如何将键和值元组的每个记录元素映射到单个连接字符串中?
这是一个简化版本,你应该可以推断这个来解决你的问题:
val keyValueRdd = sc.parallelize(Seq(
(1, "key1") -> (10, "value1", "A"),
(2, "key2") -> (20, "value2", "B"),
(3, "key3") -> (30, "value3", "C")
))
val asStrings: RDD[String] = keyValueRdd.map {
case ((k1, k2), (v1, v2, v3)) => List(k1, k2, v1, v2, v3).mkString(",")
}
asStrings.foreach(println)
// prints:
// 3,key3,30,value3,C
// 2,key2,20,value2,B
// 1,key1,10,value1,A