Pyspark DataFrame:交叉表或其他使行标签成为新列的方法

时间:2018-12-10 21:46:15

标签: dataframe pyspark crosstab

我在图片中有一个pyspark数据框,如下所示:

enter image description here

即我有四列:年,字,数,频率。年份是2000年至2015年。

我想对(pyspark)数据帧进行一些操作,以便获得以下格式的结果:

enter image description here

新的dataframe列应为:word,frequency_2000,frequency_2001,frequency_2002,...,frequency_2015。

每年每个单词的频率来自先前的数据帧。

任何建议我如何编写高效的代码?

此外,如果您可以提供更多信息,请重命名标题。

1 个答案:

答案 0 :(得分:0)

经过研究,我找到了解决方案: enter image description here