如何使用pyspark获取镶木地板文件的列名及其数据类型?

时间:2016-01-09 15:49:25

标签: apache-spark pyspark

我的hadoop集群上有一个镶木地板文件,我想捕获列名及其数据类型并将其写在textfile.how上,以使用pyspark获取镶木地板文件的列名及其数据类型。

2 个答案:

答案 0 :(得分:8)

您只需阅读该文件,然后使用schema访问个人fields

sqlContext.read.parquet(path_to_parquet_file).schema.fields

答案 1 :(得分:2)

使用dataframe.printSchema() - 以树格式打印出架构。

  
    
      

df.printSchema()       根        | - age:integer(nullable = true)        | - name:string(nullable = true)

    
  

您可以重定向程序的输出并将其捕获到文本文件中。