如何使用Spark中的多个列表创建Map

时间:2016-08-23 10:45:42

标签: scala apache-spark rdd

我试图找出如何使用以下示例条目访问RDD myRDD中的特定元素:

(600,List((600,111,7,1), (615,111,3,5))
(601,List((622,112,2,1), (615,111,3,5), (456,111,9,12))

我想使用子列表中的第3个字段作为ID从Redis DB中提取一些数据。例如,如果是(600,List((600,111,1,1), (615,111,1,5)),则ID为73。 如果是(601,List((622,112,2,1), (615,111,3,5), (456,111,9,12)),则ID为239

问题在于我不知道如何使用多个ID收集值。在下面的给定代码中,我使用line._2(3),但它不正确,因为这样我访问子列表而不是这些子列表中的字段。 我应该使用flatMap还是类似的?

  val newRDD = myRDD.mapPartitions(iter => {
    val redisPool = new Pool(new JedisPool(new JedisPoolConfig(), "localhost", 6379, 2000))
    iter.map({line => (line._1,
      redisPool.withJedisClient { client =>
        val start_date: String = Dress.up(client).hget("id:"+line._2(3),"start_date")
        val end_date: String = Dress.up(client).hget("id:"+line._2(3),"end_date")
        val additionalData = List((start_date,end_date))
        Map(("base_data", line._2), ("additional_data", additionalData))
      })
    })
  })
  newRDD.collect().foreach(println)

如果我们假设Redis DB包含一些相关数据,那么结果newRDD可能如下:

(600,Map("base_data" -> List((600,111,7,1), (615,111,3,5)), "additional_data" -> List((2014,2015),(2015,2016)))
(601,Map("base_data" -> List((622,112,2,1), (615,111,3,5), (456,111,9,12)), "additional_data" -> List((2010,2015),(2011,2016),(2014,2016)))

1 个答案:

答案 0 :(得分:0)

要获取line._2中每个元组的第三个元素的列表,请使用line._2.map(_._3)(假设line的类型为(Int, List[(Int, Int, Int, Int)]),就像从您的示例中看到的那样,和Any之类的类型没有涉及)。总的来说,您的代码看起来应该像

iter.map({ case (first, second) => (first,
  redisPool.withJedisClient { client =>
    val additionalData = second.map { tuple =>
      val start_date: String = Dress.up(client).hget("id:"+tuple._3,"start_date")
      val end_date: String = Dress.up(client).hget("id:"+tuple._3,"end_date")
      (start_date, end_date)
    }
    Map(("base_data", second), ("additional_data", additionalData))
  })
})