标签: dataframe pyspark crosstab
我在图片中有一个pyspark数据框,如下所示:
即我有四列:年,字,数,频率。年份是2000年至2015年。
我想对(pyspark)数据帧进行一些操作,以便获得以下格式的结果:
新的dataframe列应为:word,frequency_2000,frequency_2001,frequency_2002,...,frequency_2015。
每年每个单词的频率来自先前的数据帧。
任何建议我如何编写高效的代码?
此外,如果您可以提供更多信息,请重命名标题。
答案 0 :(得分:0)
经过研究,我找到了解决方案: