我有以下pyspark df:
+------------------+--------+-------+
| ID| Assets|Revenue|
+------------------+--------+-------+
|201542399349300619| 1633944| 32850|
|201542399349300629| 3979760| 850914|
|201542399349300634| 3402687|1983568|
|201542399349300724| 1138291|1097553|
|201522369349300122| 1401406|1010828|
|201522369349300137| 16948| 171534|
|201522369349300142|13474056|2285323|
|201522369349300202| 481045| 241788|
|201522369349300207| 700861|1185640|
|201522369349300227| 178479| 267976|
+------------------+--------+-------+
对于每一行,我希望能够获得资产金额20%以内的行。例如,对于第一行(ID = 201542399349300619),我希望能够获取资产在1,633,944的20%+/-之内(因此介于1,307,155到1,960,732之间)的所有行:
+------------------+--------+-------+
| ID| Assets|Revenue|
+------------------+--------+-------+
|201542399349300619| 1633944| 32850|
|201522369349300122| 1401406|1010828|
使用此子表,我想获取平均资产并将其添加为新列。因此,对于上面的示例,它就是(1633944 + 1401406)= 1517675的平均资产
+------------------+--------+-------+---------+
| ID| Assets|Revenue|AvgAssets|
+------------------+--------+-------+---------+
|201542399349300619| 1633944| 32850| 1517675|
答案 0 :(得分:4)
假设您的DataFrame具有类似于以下内容的架构(即Assets
和Revenue
是数字):
df.printSchema()
#root
# |-- ID: long (nullable = true)
# |-- Assets: integer (nullable = true)
# |-- Revenue: integer (nullable = true)
您可以按照设定的条件join将DataFrame本身使用。加入后,您可以对Assets
列的平均值进行分组和汇总。
例如:
from pyspark.sql.functions import avg, expr
df.alias("l")\
.join(
df.alias("r"),
on=expr("r.assets between l.assets*0.8 and l.assets*1.2")
)\
.groupBy("l.ID", "l.Assets", "l.Revenue")\
.agg(avg("r.Assets").alias("AvgAssets"))\
.show()
#+------------------+--------+-------+------------------+
#| ID| Assets|Revenue| AvgAssets|
#+------------------+--------+-------+------------------+
#|201542399349300629| 3979760| 850914| 3691223.5|
#|201522369349300202| 481045| 241788| 481045.0|
#|201522369349300207| 700861|1185640| 700861.0|
#|201522369349300137| 16948| 171534| 16948.0|
#|201522369349300142|13474056|2285323| 1.3474056E7|
#|201522369349300227| 178479| 267976| 178479.0|
#|201542399349300619| 1633944| 32850| 1517675.0|
#|201522369349300122| 1401406|1010828|1391213.6666666667|
#|201542399349300724| 1138291|1097553| 1138291.0|
#|201542399349300634| 3402687|1983568| 3691223.5|
#+------------------+--------+-------+------------------+
由于我们正在将DataFrame连接到自身,因此我们可以使用别名来引用左表("l"
)和右表("r"
)。上面的逻辑说,如果l
中的资产是r
中的资产的+ / 20%,则将r
与l
连接起来。
有多种表达+ / 20%条件的方法,但是我正在使用spark-sql between
表达式来查找介于Assets * 0.8
和Assets * 1.2
之间的行。
然后,我们在左侧表格的所有列(groupBy
)上进行汇总,并对右侧表格中的资产进行平均。
生成的AvgAssets
列是FloatType
列,但是如果在IntegerType
之前添加.cast("int")
,则可以轻松地将其转换为.alias("AvgAssets")
您更喜欢。
另请参阅: