我的数据框包含from和to.Both是国家/地区代码,它们显示了起始国家/地区和目的地国家/地区。
+----+---+
|from| to|
+----+---+
| TR| tr|
| TR| tr|
| TR| tr|
| TR| gr|
| ES| tr|
| GR| tr|
| CZ| it|
| LU| it|
| AR| it|
| DE| it|
| IT| it|
| IT| it|
| US| it|
| GR| fr|
有没有办法让数据框显示每个原籍国的每个目的地国家/地区的百分比,并列有所有目的地国家/地区代码?
该百分比必须在同一个原籍国(行)的总目的地之外。
e.g。
+----+---+----+---+----+
|from| tr| it| fr| gr|
+----+---+----+---+----+
| TR|0.6|0.12|0.2|0.09|
| IT|0.3| 0.3|0.3| 0.8|
| US|0.1|0.34|0.3| 0.2|
答案 0 :(得分:3)
您可pivot
count
并调整结果。首先进口一些:
from pyspark.sql.functions import col, lit, coalesce
from itertools import chain
找到关卡:
levels = [x for x in chain(*df.select("to").distinct().collect())]
pivot
:
pivoted = df.groupBy("from").pivot("to", levels).count()
compute
行计数表达式:
row_count = sum(coalesce(col(x), lit(0)) for x in levels)
创建调整列的列表:
adjusted = [(col(c) / row_count).alias(c) for c in levels]
和select
:
pivoted.select(col("from"), *adjusted)