我有一个CassandraTable。通过SparkContext.cassandraTable()访问。检索我所有的CassandraRow。
现在我要存储3条信息:(用户,城市,字节) 我这样存储
rddUsersFilter.map(row =>
(row.getString("user"),(row.getString("city"),row.getString("byte").replace(",","").toLong))).groupByKey
我获得了RDD [(String,Iterable [(String,Long)])] 现在,对于每个用户,我想总结所有字节并为城市创建一个地图,如:“city” - >“occurencies”(这个城市为这个用户多少时间)。
以前,我将这个代码拆分为两个不同的RDD,一个用于汇总字节,另一个用于创建映射,如上所述。
城市出现的示例
rddUsers.map(user => (user._1, user._2.size, user._2.groupBy(identity).map(city => (city._1,city._2.size))))
这是因为我可以通过._2方法访问我的元组的第二个元素。但现在? 我的第二个元素是Iterable [(String,Long)],我不能像以前那样映射。
是否有解决方案仅使用一个rdd和一个MapReduce检索我的所有信息?
答案 0 :(得分:0)
您可以通过首先为用户,城市分组字节和城市事件然后按用户执行分组来轻松完成此操作
val data = Array(("user1","city1",100),("user1","city1",100),
("user1","city1",100),("user1","city2",100),("user1","city2",100),
("user1","city3",100),("user1","city2",100),("user2","city1",100),
("user2","city2",100))
val rdd = sc.parallelize(data)
val res = rdd.map(x=> ((x._1,x._2),(1,x._3)))
.reduceByKey((x,y)=> (x._1+y._1,x._2+y._2))
.map(x => (x._1._1,(x._1._2,x._2._1,x._2._2)))
.groupByKey
val userCityUsageRdd = res.map(x => {
val m = x._2.toList
(x._1 ,m.map(y => (y._1->y._2)).toMap, m.map(x => x._3).reduce(_+_))
})
输出
res20: Array[(String, scala.collection.immutable.Map[String,Int], Int)] =
Array((user1,Map(city1 -> 3, city3 -> 1, city2 -> 3),700),
(user2,Map(city1 -> 1, city2 -> 1),200))