我有一个以这种格式构建的RDD: (MAC_address,dst_ip_address,1)
这里,1表示具有MAC_address的机器已访问dst_ip_address一次。我需要计算具有MAC_address的特定机器已达到特定dst_ip_address的次数。
我创建了一个带有组合MAC_address和dst_ip_address作为键的rdd,并应用reduceByKey来计算次数。
def processJson(data):
return ((MAC_address, dst_ip_address), 1)
def countreducer(a,b):
return a+b
tt = df.map(processJson).reduceByKey(countreducer)
我能够获得RDD((MAC_address,dst_ip_address),52) 我需要将RDD写成Json格式,如下所示: MAC_address_1: [dst_ip_1:52], [dst_ip_2:38] MAC_address_2: [dst_ip_1:12]
我的直觉是首先拆分组合键,但没有平移组合键的功能。因此,我想知道上述方法是否走上正轨。