有没有一种方法可以加快pyspark中列的最大值?

时间:2020-05-12 13:44:28

标签: python pyspark

我有20列的大型数据集,我需要找到每一列的最大值和最小值。其他非原始转换在整个数据集上花费的时间不超过3-5分钟。但是,要查找一列的最大值(!),则需要花费10至12分钟。目前,我尝试了这种方法:

df.agg({"x": "max"}).collect()[0]

和这种方法:

df.select(F.max(F.col("x")).alias("max")).limit(1).collect()[0].max

他们大约都花了10到12分钟的时间。有没有找到问题或加快此过程的方法?我的直觉是,找到最大值不应该是一项如此昂贵的操作。还是应该尝试同时查找所有列的最大值?

0 个答案:

没有答案