应用错误收集

Pyspark DataFrame：交叉表或其他使行标签成为新列的方法

时间：2018-12-10 21:46:15

标签： dataframe pyspark crosstab

我在图片中有一个pyspark数据框，如下所示：

即我有四列：年，字，数，频率。年份是2000年至2015年。

我想对（pyspark）数据帧进行一些操作，以便获得以下格式的结果：

新的dataframe列应为：word，frequency_2000，frequency_2001，frequency_2002，...，frequency_2015。

每年每个单词的频率来自先前的数据帧。

任何建议我如何编写高效的代码？

此外，如果您可以提供更多信息，请重命名标题。

1 个答案:

答案 0 :(得分：0)

经过研究，我找到了解决方案：