我有spark数据框 Here it is
我想逐一获取列的值并需要将其分配给某个变量?如何在pyspark中完成。对不起,我是新手,还有stackoverflow,请原谅问题的清晰度
答案 0 :(得分:0)
我不确定您要问的是什么,但是如果要将它们存储在spark提供的数据框之外的变量中,最好的选择是选择所需的列并将其存储为熊猫系列(如果不是很多,因为您的记忆力有限)。
from pyspark.sql import functions as F
var = df.select(F.col('column_you_want')).toPandas()
然后,您可以像普通的熊猫系列一样对其进行迭代。
答案 1 :(得分:0)
col1=df.select(df.column_of_df).collect()
list1=[str(i[0]) for i in col1]
#after this we can iterate through list (list1 in this case)