Question

我是一个兴奋的初学者。我试图迭代数据框如下（pyspark代码）

df = sqlcontext.read.csv(path)
Arr = df.collect()

数组arr是一个行数组。我需要知道如何从此数组arr获取列值。我尝试使用下面的代码，但收到了一些错误

For row in arr :  print row.getString(1)

我收到以下错误

有人可以帮助我如何在不使用pandas的情况下获取列值

Answer 1

您不希望“collect”，因为这只是将数据传递给主人。您可以df.printSchema()查看您拥有的列（因为您正在阅读最有可能在spark.read.option('header', 'true').csv(path)中的标题中阅读的CSV）和df.show()以查看20个样本行（你也可以指定多少行）

迭代数据帧

1 个答案: