应用错误收集

Pyspark遍历分组数据

时间：2019-04-05 16:49:10

标签： pyspark apache-spark-sql

我有一个看起来像这样的数据框

Out[105]: DataFrame[_1: struct<file_name:string>, _2: string]

我想按_2分组，对每个组进行排序并遍历每个组，然后进行一些计算（基于文件名。该怎么做？

我试图做

In [104]: df.groupby(df._2)
Out[104]: <pyspark2.sql.group.GroupedData at 0x7f7146cf59e8>

但是我不知道如何对GroupedData进行操作。

0 个答案:

没有答案