PySpark - 拆分组合键

时间:2018-04-04 00:21:04

标签: pyspark spark-dataframe

我有一个以这种格式构建的RDD: (MAC_address,dst_ip_address,1)

这里,1表示具有MAC_address的机器已访问dst_ip_address一次。我需要计算具有MAC_address的特定机器已达到特定dst_ip_address的次数。

我创建了一个带有组合MAC_address和dst_ip_address作为键的rdd,并应用reduceByKey来计算次数。

def processJson(data):
    return ((MAC_address, dst_ip_address), 1)

def countreducer(a,b):
    return a+b

tt = df.map(processJson).reduceByKey(countreducer)

我能够获得RDD((MAC_address,dst_ip_address),52) 我需要将RDD写成Json格式,如下所示: MAC_address_1:    [dst_ip_1:52],    [dst_ip_2:38] MAC_address_2:    [dst_ip_1:12]

我的直觉是首先拆分组合键,但没有平移组合键的功能。因此,我想知道上述方法是否走上正轨。

0 个答案:

没有答案