迭代数据帧

时间:2018-04-11 18:40:17

标签: python apache-spark

我是一个兴奋的初学者。我试图迭代数据框如下(pyspark代码)

df = sqlcontext.read.csv(path)
Arr = df.collect()

数组arr是一个行数组。我需要知道如何从此数组arr获取列值。我尝试使用下面的代码,但收到了一些错误

For row in arr :  print row.getString(1)

我收到以下错误enter image description here

有人可以帮助我如何在不使用pandas的情况下获取列值

1 个答案:

答案 0 :(得分:0)

您不希望“collect”,因为这只是将数据传递给主人。 您可以df.printSchema()查看您拥有的列(因为您正在阅读最有可能在spark.read.option('header', 'true').csv(path)中的标题中阅读的CSV)和df.show()以查看20个样本行(你也可以指定多少行)