Pyspark Dataframe中的透视,分组和频率

时间:2017-10-13 21:57:12

标签: python apache-spark dataframe pyspark

我有一张看起来像下面给出的表格。

++++++++++++++
col1 | col2  |  
++++++++++++++
 1   |  A    |  
 1   |  A    |
 2   |  B    |

我想找到频率并将表格转移到这样的结果:

++++++++++++++++++++++++++++
col1   |  A   |   B
++++++++++++++++++++++++++++
  1    |  2   |   0
  2    |  0   |   1

我一直在大熊猫中进行这些操作,但现在我需要一种方法在Pyspark数据框中执行此操作

0 个答案:

没有答案