有没有一种方法可以在UDF中将文件写入hdfs?

时间:2020-10-09 18:34:45

标签: apache-spark pyspark

我正在尝试并行处理Spark上的Monte Carlo模拟。模拟的输入是数据帧的分区,并且模拟当前在用户定义的函数中运行。 UDF看起来像这样:

@udf(returnType=StringType()) 
def run_simulation(str):
    import mcsim
    result = mcsim.run_simulation(str)
    return str

返回的结果是三个相当大的数据帧的列表,我立即希望将它们存储为hdfs的拼花文件。 有谁知道如何实现这一目标?我在spark上下文中还很陌生,不确定使用UDF是否是最好的方法。

谢谢!

0 个答案:

没有答案
相关问题