我需要迭代pyspark.sql.dataframe.DataFrame.DataFrame的行。
我过去使用函数iterrows()在熊猫中做到了,但是我需要在不使用熊猫的情况下为pyspark找到类似的东西。
如果我执行for row in myDF:
,则会迭代column.DataFrame
谢谢
答案 0 :(得分:1)
您可以使用select方法通过用户定义的函数对数据框进行操作,如下所示:
columns = header.columns
my_udf = F.udf(lambda data: "do what ever you want here " , StringType())
myDF.select(*[my_udf(col(c)) for c in columns])
然后在选择项内可以选择要对每列进行的操作。