PySpark的进度栏与PyArrow一起应用

时间:2019-07-17 05:56:52

标签: python pyspark pyarrow

我有一个spark dataframe。我将某些键上的数据分组,然后在组上应用功能。

为此,我使用@pandas_udf装饰器,该装饰器使用pyarrow

此应用将花费大量时间,并且会随着数据大小的增长而增加。我想监视功能进度。借助进度条,例如处理了多少组以及要处理的组数。也许与tqdm有所关联。

我使用的代码示例如下,

@pandas_udf(pdf_schema, functionType = PandasUDFType.GROUPED_MAP)
def fun(x):
    # codes
    return x

processed_data = data.groupBy(['Key']).apply(fun)

我可以使用任何库吗?一些技巧可以有效地显示进度。

0 个答案:

没有答案