使用Parquet格式附加Apache Spark中的列描述

时间:2019-05-29 19:22:27

标签: apache-spark pyspark apache-spark-sql parquet

我读了一个镶木地板:

df = spark.read.parquet(file_name)

并使用以下内容获取列:

df.columns

并返回列['col1','col2','col3']的列表

我读到实木复合地板格式能够在文件中存储一些元数据。

是否有一种存储和读取额外元数据的方法,例如,对每列是什么进行人工描述?

谢谢。

1 个答案:

答案 0 :(得分:1)

无法在Parquet文件中读取或存储任意其他元数据。

在提到Parquet文件中的元数据时,它是指与该字段相关联的技术元数据,包括嵌套字段的数量,类型信息,长度信息等。如果您查看Parquet文档中的SchemaElement类( https://static.javadoc.io/org.apache.parquet/parquet-format/2.6.0/org/apache/parquet/format/SchemaElement.html),您将找到架构中每个字段的所有可用元数据。除了字段名之外,该字段不包含任何人类可读的描述。

有关Parquet元数据的概述,可以在此处的“文件格式”部分-https://parquet.apache.org/documentation/latest/