从树状MapPartitionsRDD

时间:2018-11-20 16:28:38

标签: scala apache-spark rdd keyword warc

我有一个名为links的MapPartitionsRDD,以python的术语来说,它具有字典类型的结构。

links.peekJson(123)
res1: kw1": {"kw2": {"kw3": "a"} }
links.map(_.get("kw1.kw2.kw3").getOrElse(""))
res2: "a"

现在我的结构有些不同

links2.peekJson(123)
res1: kw1": {"kw2": [{"kw3": "a"},{"kw3": "b"},{"kw3": "c"},{"kw3": "d"}] }
links.map(_.get("kw1.kw2[1].kw3").getOrElse(""))
res2: "b"`

是否可以获取List[String]下所有条目的"kw3"? 类似于

links.map(_.get("kw1.kw2[:].kw3").getOrElse(""))
res3: List("a","b","c","d")`

我需要保留RDD中的记录与此List[String]

之间的对应关系

0 个答案:

没有答案