应用错误收集

我有一个以这种格式构建的RDD：（MAC_address，dst_ip_address，1）

这里，1表示具有MAC_address的机器已访问dst_ip_address一次。我需要计算具有MAC_address的特定机器已达到特定dst_ip_address的次数。

我创建了一个带有组合MAC_address和dst_ip_address作为键的rdd，并应用reduceByKey来计算次数。

def processJson(data):
    return ((MAC_address, dst_ip_address), 1)

def countreducer(a,b):
    return a+b

tt = df.map(processJson).reduceByKey(countreducer)

我能够获得RDD（（MAC_address，dst_ip_address），52）我需要将RDD写成Json格式，如下所示： MAC_address_1： [dst_ip_1：52]， [dst_ip_2：38] MAC_address_2： [dst_ip_1：12]

我的直觉是首先拆分组合键，但没有平移组合键的功能。因此，我想知道上述方法是否走上正轨。

PySpark - 拆分组合键

0 个答案: