Question

我需要迭代pyspark.sql.dataframe.DataFrame.DataFrame的行。

我过去使用函数iterrows（）在熊猫中做到了，但是我需要在不使用熊猫的情况下为pyspark找到类似的东西。

如果我执行for row in myDF:，则会迭代column.DataFrame

谢谢

Answer 1

您可以使用select方法通过用户定义的函数对数据框进行操作，如下所示：

    columns = header.columns
    my_udf = F.udf(lambda data: "do what ever you want here " , StringType())
    myDF.select(*[my_udf(col(c)) for c in columns])

然后在选择项内可以选择要对每列进行的操作。

PySpark-迭代数据框的行

1 个答案: