PySpark-迭代数据框的行

时间:2018-07-03 10:28:45

标签: pyspark

我需要迭代pyspark.sql.dataframe.DataFrame.DataFrame的行。

我过去使用函数iterrows()在熊猫中做到了,但是我需要在不使用熊猫的情况下为pyspark找到类似的东西。

如果我执行for row in myDF:,则会迭代column.DataFrame

谢谢

1 个答案:

答案 0 :(得分:1)

您可以使用select方法通过用户定义的函数对数据框进行操作,如下所示:

    columns = header.columns
    my_udf = F.udf(lambda data: "do what ever you want here " , StringType())
    myDF.select(*[my_udf(col(c)) for c in columns])

然后在选择项内可以选择要对每列进行的操作。