Question

我读过

建议不要使用UDF节省反序列化/序列化成本。

就我而言，我做了这样的查询

select MYFUN(f1, f2, ...) 
from A ...

我使用MYFUN逐行对查询结果进行后处理，例如，将其发送到其他服务。

def my_fun(f1, f2, ...):
   service.send(f1, f2, ...)

session.udf.register('MYFUN', my_fun)

不使用UDF，我可能想将查询结果保存到Python数据框或hdfs上的Parque表中，然后按一个数据框读取，然后逐个处理该数据框。

问题是结果表的大小很大，可能是1M行。在这种情况下，删除UDF是否仍然有意义？

将Spark SQL结果填充到另一服务的最佳实践是什么？

Answer 1

从性能的角度来看，不建议使用Python UDF，但是在需要时使用它们没有什么错误，因为在这种情况下：与您的{引入的I / O等待相比，序列化/反序列化的成本可能是荒谬的{1}}。因此，删除UDF可能没有意义。

在更一般的情况下，有两种方法可以减少处理数据帧的内存占用量。您已经提到的一个是保存到文件并处理文件。

另一种方法是在数据框上使用toLocalIterator。这样，您将在数据框的每个分区上进行迭代：您可以对数据框进行重新分区以制作任意大小的分区：

send

这样，您的本地内存需求将减少到重新分区数据帧的最大分区。