Pyspark遍历分组数据

时间:2019-04-05 16:49:10

标签: pyspark apache-spark-sql

我有一个看起来像这样的数据框

Out[105]: DataFrame[_1: struct<file_name:string>, _2: string]

我想按_2分组,对每个组进行排序并遍历每个组,然后进行一些计算(基于文件名。该怎么做?

我试图做

In [104]: df.groupby(df._2)
Out[104]: <pyspark2.sql.group.GroupedData at 0x7f7146cf59e8>

但是我不知道如何对GroupedData进行操作。

0 个答案:

没有答案