如何从具有特定字段的RDD[String]
到List
个地图获取特定字段。我有RDD[String]
:org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[19]
每个条目都是以这种格式的JSON:
{
count: 1,
itemId: "1122334",
country: {
code: {
preferred: "USA"
},
name: {
preferred: "America"
}
},
states: "50",
self: {
otherInfo: [
],
preferred: "National Parks"
},
Rating: 4
}
如何获取仅以itemId
为键,self.preferred
为值{itemid , self.preferred}
)的地图列表:
itemId : 1122334 self.preferred : "National Parks"
itemId : 3444444 self.preferred : "State Parks"
...
在所有节点上广播生成的地图是否有效?我需要通过进一步的计算来共享/引用这个地图。
答案 0 :(得分:0)
您可以尝试:
matched.groups()
广播:
val filteredMappingsList = countryMapping.filter(x=> {
val jsonObj = new JSONObject(x)
jsonObj.has("itemId")
})
val finalMapping = filteredMappingsList.map(x=>{
val jsonObj = new JSONObject(x);
val itemId = jsonObj.get("itemId").toString()
val preferred = jsonObj.getJSONObject("self").get("preferred").toString()
(itemId, preferred)
}).collectAsMap