有没有办法将在for循环期间创建的变量写入pyspark中的数据帧?

时间:2019-11-16 22:31:42

标签: apache-spark pyspark pyspark-sql pyspark-dataframes

我正在for循环中创建四个变量,我试图将这些变量写入pyspark的数据帧中。然后,我想将此数据帧写入镶木地板和csv文件中。有没有一种有效的方法来做到这一点。如果可以的话,请用pyspark代码向我解释。

1 个答案:

答案 0 :(得分:1)

一种优雅而有效的方法是将循环逻辑转换为纯Spark 代码。

例如:

(给定四个功能f1f2f3f4,接受一个int参数并给spark一个{{1 }}实例)

以下for循环:

SparkSession

可以翻译成:

for i in range(1000000):
    v1, v2, v3, v4 = f1(i), f2(i), f3(i), f4(i)
    [...]