我使用的是Spark 1.3.1。
我正在尝试在Python中查看Spark数据帧列的值。使用Spark数据帧,我可以df.collect()
查看数据帧的内容,但是我没有看到Spark数据帧列的最佳方法。
例如,数据框df
包含名为'zip_code'
的列。我可以df['zip_code']
进行pyspark.sql.dataframe.Column
类型,但我找不到查看df['zip_code']
中值的方法。
答案 0 :(得分:29)
您可以访问基础RDD
并在其上进行映射
df.rdd.map(lambda r: r.zip_code).collect()
如果您不介意使用select
个对象包装的结果,也可以使用Row
:
df.select('zip_code').collect()
最后,如果您只是想检查内容,那么show
方法就足够了:
df.select('zip_code').show()
答案 1 :(得分:2)
查看完整内容:
df.select("raw").take(1).foreach(println)
(show
会向您展示概述)。
答案 2 :(得分:0)
您可以简单地写:
df.select('your column's name').show()
在您的情况下,它将是:
df.select('zip_code').show()