如何在数据框中优化5000万个pyspark记录

时间:2019-02-20 17:58:35

标签: pyspark pyspark-sql

我必须每周处理数百万个数据,因此编写了一个函数,然后转换为udf,以便使用for循环调用相同的函数52次,因为在内部函数中发生了许多数据帧合并,因此抛出错误,请建议解决此问题

0 个答案:

没有答案