Question

我有spark数据框 Here it is

我想逐一获取列的值并需要将其分配给某个变量？如何在pyspark中完成。对不起，我是新手，还有stackoverflow，请原谅问题的清晰度

Answer 1

我不确定您要问的是什么，但是如果要将它们存储在spark提供的数据框之外的变量中，最好的选择是选择所需的列并将其存储为熊猫系列（如果不是很多，因为您的记忆力有限）。

from pyspark.sql import functions as F

var = df.select(F.col('column_you_want')).toPandas()

然后，您可以像普通的熊猫系列一样对其进行迭代。

Answer 2

col1=df.select(df.column_of_df).collect()
list1=[str(i[0]) for i in col1]
#after this we can iterate through list (list1 in this case)