我有以下python / pandas命令:
python-home
我在其中获取WSGIDaemonProcess
对象中所有列的值计数。
我如何在PySpark中执行此操作?
答案 0 :(得分:3)
大致相同:
spark_df.groupBy('column_name').count().orderBy('count')
在groupBy中,您可以有多个由,
分隔的列
例如groupBy('column_1', 'column_2')
答案 1 :(得分:3)
当你想控制订单时试试这个:
data.groupBy('col_name').count().orderBy('count', ascending=False).show()
答案 2 :(得分:1)
就像groupBy接受groupby键的顺序一样,例如从左到右或从右到左。试图弄清楚分组的顺序(如何进行)。例如,如果您有国家,省和市镇……这是最先出现的,您是按组键的顺序指定的,还是只是根据层次结构进行分组
答案 3 :(得分:0)
spark_df.groupBy('column_name')。count()。show()