如何遍历spark数据框的一列并一个接一个地访问其中的值?

时间:2018-11-13 14:24:14

标签: pyspark apache-spark-sql

我有spark数据框 Here it is

我想逐一获取列的值并需要将其分配给某个变量?如何在pyspark中完成。对不起,我是新手,还有stackoverflow,请原谅问题的清晰度

2 个答案:

答案 0 :(得分:0)

我不确定您要问的是什么,但是如果要将它们存储在spark提供的数据框之外的变量中,最好的选择是选择所需的列并将其存储为熊猫系列(如果不是很多,因为您的记忆力有限)。

from pyspark.sql import functions as F

var = df.select(F.col('column_you_want')).toPandas()

然后,您可以像普通的熊猫系列一样对其进行迭代。

答案 1 :(得分:0)

col1=df.select(df.column_of_df).collect()
list1=[str(i[0]) for i in col1]
#after this we can iterate through list (list1 in this case)