Spark - 使用groupBy减少组合数量

时间:2016-02-13 15:50:06

标签: python apache-spark mapreduce pyspark

假设我有以下形式的数据集:

data = sc.parallelize([('customer_1', 'contract_1', 15000, 100), 
                       ('customer_1', 'contract_1', 20000, 200),
                       ('customer_2', 'contract_2', 30000, 100), 
                       ('customer_1', 'contract_1', 7500, 500)], 2)

其中:

  • 第一列代表客户ID。
  • 第二列代表合约ID。
  • 第三列代表时间戳。
  • 第四栏是合约价值。

我需要做的是添加一个额外的列,对于每一行,它包含具有相同客户ID,相同合同ID和时间戳等于或大于当前时间戳的所有行的合同值之和行。

因此,对于之前的数据集,结果应为:

customer_1 contract_1 15000 300  # 300 = 100+200
customer_1 contract_1 20000 200  # 200
customer_2 contract_2 30000 100  # 100
customer_1 contract_1  7500 800  # 800 = 100+200+500

如果不存在时间戳检查,可以设置由客户ID和合同ID组成的密钥,按键减少然后加入但是给定时间戳比较,我找不到简单的方法这样做。

我完成这项工作的第一个方法是以这种方式使用笛卡尔运算:

combinations = data.cartesian(data)
               .filter(lambda a: a[0][0] == a[1][0] and  
                                 a[0][1] == a[1][1] and 
                                 a[1][2] >= a[0][2])
agg = combinations.map(lambda a: (a[0], a[1][3])).reduceByKey(lambda x,y: x+y)

结果还可以,但我担心将笛卡尔应用于我管理的数据量(超过100万行)是非常低效的。事实上,在这里应用笛卡尔运算产生了许多组合,这些组合根本没有意义(根据定义,将不同客户或合同的行组合在一起),后来被过滤器删除。

我的理想情况是使用客户ID和合同ID作为密钥进行groupBy,然后迭代生成的groupBy,并将笛卡尔积应用于每一行。这将大大减少生成的组合数量。但是,我没有找到任何办法。更重要的是,这可能吗?如果是的话,怎么样?您对如何达到我的要求有任何其他建议/想法吗?

感谢您的帮助!

1 个答案:

答案 0 :(得分:2)

这是一个要求窗口函数的问题:

import sys
from pyspark.sql.window import Window
from pyspark.sql.functions import sum

df = data.toDF(["customer_id", "contract_id", "timestamp", "value"])
w = (Window()
    .partitionBy("customer_id", "contract_id")
    .orderBy("timestamp")
    # Current row and future values
    .rangeBetween(0, sys.maxsize)) # or .rowsBetween(0, sys.maxsize)

result = df.withColumn("future_value", sum("value").over(w))
result.show()

## +-----------+-----------+---------+-----+------------+
## |customer_id|contract_id|timestamp|value|future_value|
## +-----------+-----------+---------+-----+------------+
## | customer_1| contract_1|     7500|  500|         800|
## | customer_1| contract_1|    15000|  100|         300|
## | customer_1| contract_1|    20000|  200|         200|
## | customer_2| contract_2|    30000|  100|         100|
## +-----------+-----------+---------+-----+------------+