PySpark-在数据框中创建列,其中包含第二列每个类别的计数,并按第一列分组

时间:2019-01-03 02:32:47

标签: pyspark

我在PySpark中具有以下数据框:

Device   Error_Code   Date   
-----------------------------
1111        A       1/1/2000  
1111        B       1/2/2000
1111        A       1/4/2000
2222        A       1/1/2000
2222        C       1/2/2000
2222        C       1/3/2000

如何使用上述数据框创建以下格式的另一个数据框?基本上,新的列捕获按“设备”列分组的“错误代码”列的每个类别的计数。

Device   Error_Code_A   Error_Code_B   Error_Code_C
----------------------------------------------------
1111           2                1             0
2222           1                0             2               

0 个答案:

没有答案