如何计算pyspark数据框中列中每个分类变量的频率?

时间:2018-03-20 05:27:08

标签: python pyspark spark-dataframe

说我有一个pyspark数据帧:

df.show()
+-----+---+
|  x  |  y|
+-----+---+
|alpha|  1|
|beta |  2|
|gamma|  1|
|alpha|  2|
+-----+---+

我想计算alpha列中出现betagammax的次数。我如何在pyspark中这样做?

1 个答案:

答案 0 :(得分:3)

使用pyspark.sql.DataFrame.cube()

df.cube("x").count().show()