Question

我有以下python / pandas命令：

python-home

我在其中获取WSGIDaemonProcess对象中所有列的值计数。

我如何在PySpark中执行此操作？

Answer 1

大致相同：

spark_df.groupBy('column_name').count().orderBy('count')

在groupBy中，您可以有多个由,分隔的列

例如groupBy('column_1', 'column_2')

Answer 2

当你想控制订单时试试这个：

data.groupBy('col_name').count().orderBy('count', ascending=False).show()

Answer 3

就像groupBy接受groupby键的顺序一样，例如从左到右或从右到左。试图弄清楚分组的顺序（如何进行）。例如，如果您有国家，省和市镇……这是最先出现的，您是按组键的顺序指定的，还是只是根据层次结构进行分组

Answer 4

spark_df.groupBy（'column_name'）。count（）。show（）