我有一个看起来像这样的数据框
Out[105]: DataFrame[_1: struct<file_name:string>, _2: string]
我想按_2
分组,对每个组进行排序并遍历每个组,然后进行一些计算(基于文件名。该怎么做?
我试图做
In [104]: df.groupby(df._2)
Out[104]: <pyspark2.sql.group.GroupedData at 0x7f7146cf59e8>
但是我不知道如何对GroupedData进行操作。