如何在spark中按多个键分组?

时间:2015-03-31 15:44:41

标签: python apache-spark pyspark

我有一堆元组,它们是复合键和值的形式。例如,

tfile.collect() = [(('id1','pd1','t1'),5.0), 
     (('id2','pd2','t2'),6.0),
     (('id1','pd1','t2'),7.5),
     (('id1','pd1','t3'),8.1)  ]

我想对此集合执行类似sql的操作,我可以根据id [1..n]或pd [1..n]聚合信息。我想使用vanilla pyspark apis实现而不使用SQLContext。 在我目前的实现中,我正在阅读一堆文件并合并RDD。

def readfile():
    fr = range(6,23)
    tfile = sc.union([sc.textFile(basepath+str(f)+".txt")
                        .map(lambda view: set_feature(view,f)) 
                        .reduceByKey(lambda a, b: a+b)
                        for f in fr])
    return tfile

我打算将聚合数组创建为值。例如,

agg_tfile = [((id1,pd1),[5.0,7.5,8.1])]

其中5.0,7.5,8.1代表[t1​​,t2,t3]。我目前,使用字典通过vanilla python代码实现相同的目标。它适用于较小的数据集。但我担心,因为这可能无法扩展到更大的数据集。有没有一种使用pyspark apis实现相同目的的有效方法?

2 个答案:

答案 0 :(得分:13)

我的猜测是你想根据多个字段转置数据。

一种简单的方法是连接您将分组的目标字段,并使其成为配对RDD中的密钥。例如:

lines = sc.parallelize(['id1,pd1,t1,5.0', 'id2,pd2,t2,6.0', 'id1,pd1,t2,7.5', 'id1,pd1,t3,8.1'])
rdd = lines.map(lambda x: x.split(',')).map(lambda x: (x[0] + ', ' + x[1], x[3])).reduceByKey(lambda a, b: a + ', ' + b)
print rdd.collect()

然后你将获得转置结果。

[('id1, pd1', '5.0, 7.5, 8.1'), ('id2, pd2', '6.0')]

答案 1 :(得分:2)

我将((id1,t1),((p1,5.0),(p2,6.0))等分组...作为我的地图函数。稍后,我减少使用map_group为[p1创建数组, p2,...]并在各自的位置填写值。

def map_group(pgroup):
    x = np.zeros(19)
    x[0] = 1
    value_list = pgroup[1]
    for val in value_list:
        fno = val[0].split('.')[0]
        x[int(fno)-5] = val[1]
    return x

tgbr = tfile.map(lambda d: ((d[0][0],d[0][2]),[(d[0][1],d[1])])) \
                .reduceByKey(lambda p,q:p+q) \
                .map(lambda d: (d[0], map_group(d)))

在计算方面,这确实是一种昂贵的解决方案。但现在工作。