查看Spark Dataframe列的内容

时间:2015-06-29 19:37:39

标签: python apache-spark dataframe pyspark

我使用的是Spark 1.3.1。

我正在尝试在Python中查看Spark数据帧列的值。使用Spark数据帧,我可以df.collect()查看数据帧的内容,但是我没有看到Spark数据帧列的最佳方法。

例如,数据框df包含名为'zip_code'的列。我可以df['zip_code']进行pyspark.sql.dataframe.Column类型,但我找不到查看df['zip_code']中值的方法。

3 个答案:

答案 0 :(得分:29)

您可以访问基础RDD并在其上进行映射

df.rdd.map(lambda r: r.zip_code).collect()

如果您不介意使用select个对象包装的结果,也可以使用Row

df.select('zip_code').collect()

最后,如果您只是想检查内容,那么show方法就足够了:

df.select('zip_code').show()

答案 1 :(得分:2)

查看完整内容:

df.select("raw").take(1).foreach(println)

show会向您展示概述)。

答案 2 :(得分:0)

您可以简单地写:

df.select('your column's name').show()

在您的情况下,它将是:

df.select('zip_code').show()