我有一个spark dataframe
。我将某些键上的数据分组,然后在组上应用功能。
为此,我使用@pandas_udf
装饰器,该装饰器使用pyarrow
。
此应用将花费大量时间,并且会随着数据大小的增长而增加。我想监视功能进度。借助进度条,例如处理了多少组以及要处理的组数。也许与tqdm
有所关联。
我使用的代码示例如下,
@pandas_udf(pdf_schema, functionType = PandasUDFType.GROUPED_MAP)
def fun(x):
# codes
return x
processed_data = data.groupBy(['Key']).apply(fun)
我可以使用任何库吗?一些技巧可以有效地显示进度。