我是一个兴奋的初学者。我试图迭代数据框如下(pyspark代码)
df = sqlcontext.read.csv(path)
Arr = df.collect()
数组arr
是一个行数组。我需要知道如何从此数组arr
获取列值。我尝试使用下面的代码,但收到了一些错误
For row in arr : print row.getString(1)
有人可以帮助我如何在不使用pandas的情况下获取列值
答案 0 :(得分:0)
您不希望“collect
”,因为这只是将数据传递给主人。
您可以df.printSchema()
查看您拥有的列(因为您正在阅读最有可能在spark.read.option('header', 'true').csv(path)
中的标题中阅读的CSV)和df.show()
以查看20个样本行(你也可以指定多少行)