假设这是我的数据:
def counter(x):
return [len(set(filter(None, i.split(',')))) for i in x]
for col in ['A', 'B']:
df['count'+col] = counter(df[col])
print(df)
ID A B countA countB
0 1 1,2,1,2 1,2,3,4 2 4
1 2 1,2,3,4 1,2,1,2 4 2
2 3 1,2,3 3,4 3 2
3 4 4,1 2 0
我正在尝试查找围绕NULL值组的开始和结束日期。示例输出如下:
date value
2016-01-01 1
2016-01-02 NULL
2016-01-03 NULL
2016-01-04 2
2016-01-05 3
2016-01-06 NULL
2016-01-07 NULL
2016-01-08 NULL
2016-01-09 1
我对此问题的第一次尝试产生了以下结果:
start end
2016-01-01 2016-01-04
2016-01-05 2016-01-09
但这只能找到总的最小值和最大值。我想过使用groupBy但不知道如何为每个空值块创建一个列。
答案 0 :(得分:2)
棘手的部分是获取组的边界,因此您需要几个步骤。
这是一个工作示例:
import ss.implicits._
val df = Seq(
("2016-01-01", Some(1)),
("2016-01-02", None),
("2016-01-03", None),
("2016-01-04", Some(2)),
("2016-01-05", Some(3)),
("2016-01-06", None),
("2016-01-07", None),
("2016-01-08", None),
("2016-01-09", Some(1))
).toDF("date", "value")
df
// build blocks
.withColumn("isnull", when($"value".isNull, true).otherwise(false))
.withColumn("lag_isnull", lag($"isnull",1).over(Window.orderBy($"date")))
.withColumn("change", coalesce($"isnull"=!=$"lag_isnull",lit(false)))
.withColumn("block", sum($"change".cast("int")).over(Window.orderBy($"date")))
// now calculate min/max within groups
.groupBy($"block")
.agg(
min($"date").as("tmp_min"),
max($"date").as("tmp_max"),
(count($"value")===0).as("null_block")
)
// now extend groups to include borders
.withColumn("min", lag($"tmp_max", 1).over(Window.orderBy($"tmp_min")))
.withColumn("max", lead($"tmp_min", 1).over(Window.orderBy($"tmp_max")))
// only select null-groups
.where($"null_block")
.select($"min", $"max")
.orderBy($"min")
.show()
给出
+----------+----------+
| min| max|
+----------+----------+
|2016-01-01|2016-01-04|
|2016-01-05|2016-01-09|
+----------+----------+
答案 1 :(得分:1)
我没有工作解决方案,但我确实有一些建议。
Look at using a lag;您还必须稍微更改该代码以生成前导列。
现在假设你有滞后和引导列。您的结果数据框现在将如下所示:
date value lag_value lead_value
2016-01-01 1 NULL 1
2016-01-02 NULL NULL 1
2016-01-03 NULL 2 NULL
2016-01-04 2 3 NULL
2016-01-05 3 NULL 2
2016-01-06 NULL NULL 3
2016-01-07 NULL NULL NULL
2016-01-08 NULL 1 NULL
2016-01-09 1 1 NULL
现在您要做的只是按以下条件过滤:
min date:
df.filter("value IS NOT NULL AND lag_value IS NULL")
max date:
df.filter("value IS NULL AND lead_value IS NOT NULL")
如果您想要更高级一些,您还可以使用when
命令创建一个新列,该列说明日期是否为空组的开始日期或结束日期:
date value lag_value lead_value group_date_type
2016-01-01 1 NULL 1 start
2016-01-02 NULL NULL 1 NULL
2016-01-03 NULL 2 NULL NULL
2016-01-04 2 3 NULL end
2016-01-05 3 NULL 2 start
2016-01-06 NULL NULL 3 NULL
2016-01-07 NULL NULL NULL NULL
2016-01-08 NULL 1 NULL NULL
2016-01-09 1 1 NULL end
可以使用如下所示的内容创建:
from pyspark.sql import functions as F
df_2.withColumn('group_date_type',
F.when("value IS NOT NULL AND lag_value IS NULL", start)\
.when("value IS NULL AND lead_value IS NOT NULL", end)\
.otherwise(None)
)