透视PYSPARK中的数据框架

时间:2018-01-01 09:28:33

标签: apache-spark pivot apache-spark-sql pyspark-sql

我的要求如下

dataframe

id   code
R101,GTR001
R201,RTY987
R301,KIT158
R201,PLI564
R101,MJU098
R301,OUY579

code每个id可以有很多id col1 col2 col3 col4 col5 col6 R101 GTR001 MJU098 null null null null R201 null null RTY987 PLI564 null null R301 null null null null KIT158 OUY579 。不仅仅是两个。

预期输出应如下所示。

id

此处特定code的列取决于分配给id的{​​{1}}的数量,即col1col2代码R101应该填充col3col4下的R201代码,并填充其余的ID。

1 个答案:

答案 0 :(得分:3)

您可以尝试根据ID对代码字段进行排名,并使用等级进行透视。希望这有帮助,

java.lang.NullPointerException: Attempt to invoke virtual method 'java.lang.String android.os.Bundle.getString(java.lang.String)' on a null object reference