Question

我的hadoop集群上有一个镶木地板文件，我想捕获列名及其数据类型并将其写在textfile.how上，以使用pyspark获取镶木地板文件的列名及其数据类型。

Answer 1

您只需阅读该文件，然后使用schema访问个人fields：

sqlContext.read.parquet(path_to_parquet_file).schema.fields

Answer 2

使用dataframe.printSchema（） - 以树格式打印出架构。

df.printSchema（）       根        | - age：integer（nullable = true）        | - name：string（nullable = true）

您可以重定向程序的输出并将其捕获到文本文件中。