我的hadoop集群上有一个镶木地板文件,我想捕获列名及其数据类型并将其写在textfile.how上,以使用pyspark获取镶木地板文件的列名及其数据类型。
答案 0 :(得分:8)
您只需阅读该文件,然后使用schema
访问个人fields
:
sqlContext.read.parquet(path_to_parquet_file).schema.fields
答案 1 :(得分:2)
使用dataframe.printSchema() - 以树格式打印出架构。
df.printSchema() 根 | - age:integer(nullable = true) | - name:string(nullable = true)
您可以重定向程序的输出并将其捕获到文本文件中。