如何使用分组数据的后续行的值来使用pyspark决定当前行的值

时间:2018-08-28 08:02:31

标签: python pyspark

在下面的数据集中,我想将won_offer列的值更改为10。问题是我需要随后的客户代码组合行来确定该列的值。

如果当前行日期后30天内的下一行之一包含order,并且价格低于当前行的价格,则该行won_offer列的0可以变成1。

样本数据集:

analysis = sqlContext.createDataFrame(
    [
        ('customer1', 'code1', 'date', 'order', 1.7, 0, 1),
        ('customer1', 'code2', 'date', 'offer', 1.5, 0, 2),
        ('customer1', 'code2', 'date', 'offer', 2.0, 0, 2),
        ('customer2', 'code1', 'date', 'offer', 1.2, 0,4),
        ('customer2', 'code1', 'date', 'order', 1.1, 0,4),
        ('customer2', 'code1', 'date', 'order', 2.0, 0,4),
        ('customer2', 'code1', 'date', 'offer', 1.2, 0,4)
    ],
    ('customer', 'code', 'order_date', 'type', 'price', 'final_offer', 'counter')
)

我尝试了类似的方法,但是它不起作用,因为我不知道如何将多行传递给我的udf:

w = \
    Window.partitionBy('customer','code').orderBy('orderoffer_date')

@F.udf(returnType=IntegerType())
def logic_udf(counter, curr_date, next_dates, current_type, next_types, curr_price, next_prices) :
    for i in range(len(counter)):
        if (next_dates[i] < curr_date+30):
            if (next_types[i] == 'order') & (next_prices[i] < curr_price ):
                return 1
            else:
                return 0
        else:
            return 0

analysis = analysis.withColumn('won_offer', 
               logic(analysis.counter, analysis.order_date,lead(analysis.order_date, 
               analysis.n).over(w), analysis.type,lead(analysis.type, 
               analysis.n).over(w), analysis.price, lead(analysis.price, 
               analysis.n).over(w)))

所需的输出:

desired_result = sqlCtx.createDataFrame(
    [
        ('customer1', 'code1', 'date', 'order', 1.7, 0, 1),
        ('customer1', 'code2', 'date', 'offer', 1.5, 0, 2),
        ('customer1', 'code2', 'date', 'offer', 2.0, 0, 2),
        ('customer2', 'code1', 'date', 'offer', 1.2, 1, 4),
        ('customer2', 'code1', 'date', 'order', 1.1, 1, 4),
        ('customer2', 'code1', 'date', 'order', 1.0, 0, 4),
        ('customer2', 'code1', 'date', 'offer', 1.2, 0, 4)
    ],
    ('customer', 'code', 'order_date', 'type', 'price', 'final_offer', 'counter')
)

我意识到我的问题很复杂。 如果有人能告诉我如何将多行分组数据传递给udf ,那么我将大有帮助。

简而言之:主要目标是通过查看下一行中的多个列(并仍在其特定组内)来确定一行中的值。

预先感谢! 查尔斯

1 个答案:

答案 0 :(得分:1)

您可以使用带有sql函数的window来替换logic_udf。由于您仅使用当前行之后的第一行,因此可以将当前行之后的第一行添加到当前行。

from pyspark.sql import functions as F

analysis \
    .withColumn('next_order_date', F.first('order_date').over(w)) \
    .withColumn('next_type', F.first('type').over(w)) \
    .withColumn('next_price', F.first('price').over(w)) \
    .withColumn('won_offer', F.when(condition, 1).otherwise(0))