使用Spark转换构建派生列

时间:2019-05-23 04:15:15

标签: apache-spark hive pyspark hadoop2

我得到了如下表记录。

Id   Indicator     Date
1       R       2018-01-20
1       R       2018-10-21
1       P       2019-01-22
2       R       2018-02-28
2       P       2018-05-22
2       P       2019-03-05 

我需要选择在过去一年中具有两个以上Id指标的R,并派出一个名为Marked_Flag的新列,作为Y,否则为{{ 1}}。因此预期的输出应如下所示,

N

因此,到目前为止,我将记录放在数据集中,然后再次从中建立另一个数据集。代码如下所示。

Id  Marked_Flag 
1   Y
2   N

但是我领导使用单个数据集并使用Spark转换来完成此操作。我对Spark还是很陌生,在这方面的任何指导或代码片段都将非常有帮助。

创建了两个数据集,一个用于获取聚合,另一个使用聚合的值导出新列。

Dataset<row> getIndicators = spark.sql("select id, count(indicator) as indi_count from source group by id having indicator = 'R'");

Dataset<row>getFlag = spark.sql("select id, case when indi_count > 1 then 'Y' else 'N' end as Marked_Flag" from getIndicators");

Input

Expected output

1 个答案:

答案 0 :(得分:1)

尝试以下方法。请注意,我在这里使用pyspark DataFrame

from pyspark.sql import SparkSession
import pyspark.sql.functions as F
spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame([
[1, "R", "2018-01-20"],
[1, "R", "2018-10-21"],
[1, "P", "2019-01-22"],
[2, "R", "2018-02-28"],
[2, "P", "2018-05-22"],
[2, "P", "2019-03-05"]], ["Id", "Indicator","Date"])

gr = df.filter(F.col("Indicator")=="R").groupBy("Id").agg(F.count("Indicator"))
gr = gr.withColumn("Marked_Flag", F.when(F.col("count(Indicator)") > 1, "Y").otherwise('N')).drop("count(Indicator)")
gr.show()

# +---+-----------+
# | Id|Marked_Flag|
# +---+-----------+
# |  1|          Y|
# |  2|          N|
# +---+-----------+
#