我试图找出如何使用以下示例条目访问RDD myRDD
中的特定元素:
(600,List((600,111,7,1), (615,111,3,5))
(601,List((622,112,2,1), (615,111,3,5), (456,111,9,12))
我想使用子列表中的第3个字段作为ID从Redis DB中提取一些数据。例如,如果是(600,List((600,111,1,1), (615,111,1,5))
,则ID为7
和3
。
如果是(601,List((622,112,2,1), (615,111,3,5), (456,111,9,12))
,则ID为2
,3
和9
。
问题在于我不知道如何使用多个ID收集值。在下面的给定代码中,我使用line._2(3)
,但它不正确,因为这样我访问子列表而不是这些子列表中的字段。
我应该使用flatMap
还是类似的?
val newRDD = myRDD.mapPartitions(iter => {
val redisPool = new Pool(new JedisPool(new JedisPoolConfig(), "localhost", 6379, 2000))
iter.map({line => (line._1,
redisPool.withJedisClient { client =>
val start_date: String = Dress.up(client).hget("id:"+line._2(3),"start_date")
val end_date: String = Dress.up(client).hget("id:"+line._2(3),"end_date")
val additionalData = List((start_date,end_date))
Map(("base_data", line._2), ("additional_data", additionalData))
})
})
})
newRDD.collect().foreach(println)
如果我们假设Redis DB包含一些相关数据,那么结果newRDD
可能如下:
(600,Map("base_data" -> List((600,111,7,1), (615,111,3,5)), "additional_data" -> List((2014,2015),(2015,2016)))
(601,Map("base_data" -> List((622,112,2,1), (615,111,3,5), (456,111,9,12)), "additional_data" -> List((2010,2015),(2011,2016),(2014,2016)))
答案 0 :(得分:0)
要获取line._2
中每个元组的第三个元素的列表,请使用line._2.map(_._3)
(假设line
的类型为(Int, List[(Int, Int, Int, Int)])
,就像从您的示例中看到的那样,和Any
之类的类型没有涉及)。总的来说,您的代码看起来应该像
iter.map({ case (first, second) => (first,
redisPool.withJedisClient { client =>
val additionalData = second.map { tuple =>
val start_date: String = Dress.up(client).hget("id:"+tuple._3,"start_date")
val end_date: String = Dress.up(client).hget("id:"+tuple._3,"end_date")
(start_date, end_date)
}
Map(("base_data", second), ("additional_data", additionalData))
})
})