在pyspark中进行透视而不提供不同值的列表

时间:2019-02-04 18:49:13

标签: pyspark pivot

尝试在pyspark数据框中使用列表进行透视时出错

我要透视的列中的不同值也具有'null'作为值。我试图通过两种方法进行透视- 1.通过提供不同值的列表 2.通过不提供值列表

如果我提供列表,我可以进行透视,但是我的偏好是不提供任何列表而进行透视,但是我遇到了错误。请在下面查看我的所有代码,并告知错误是否是由于数据透视栏中存在“空”值引起的。

1。成功进行数据透视

 df.groupBy("ID").pivot("class",["None","A","B","C"]).sum("Amt").collect()

2。代码1错误

 df.groupBy("ID").pivot("class").sum("Amt").collect()

3。代码2错误

创建不同值的列表

l=[df.select('class').distinct().collect()]

使用创建的列表进行透视

 df.groupBy("ID").pivot("class",l).sum("Amt").collect()

如前所述,我更喜欢在第2行甚至第3行中运行代码。我认为该错误是由于“类”列中的“空”值所致。我们将不胜感激输入。

0 个答案:

没有答案