PySpark中熊猫的value_counts()等于多少?

时间:2018-06-27 13:08:16

标签: dataframe count pyspark pandas-groupby

我有以下python / pandas命令:

python-home

我在其中获取WSGIDaemonProcess对象中所有列的值计数。

我如何在PySpark中执行此操作?

4 个答案:

答案 0 :(得分:3)

大致相同:

spark_df.groupBy('column_name').count().orderBy('count')

在groupBy中,您可以有多个由,分隔的列

例如groupBy('column_1', 'column_2')

答案 1 :(得分:3)

当你想控制订单时试试这个:

data.groupBy('col_name').count().orderBy('count', ascending=False).show()

答案 2 :(得分:1)

就像groupBy接受groupby键的顺序一样,例如从左到右或从右到左。试图弄清楚分组的顺序(如何进行)。例如,如果您有国家,省和市镇……这是最先出现的,您是按组键的顺序指定的,还是只是根据层次结构进行分组

答案 3 :(得分:0)

spark_df.groupBy('column_name')。count()。show()