我读了一个镶木地板:
df = spark.read.parquet(file_name)
并使用以下内容获取列:
df.columns
并返回列['col1','col2','col3']的列表
我读到实木复合地板格式能够在文件中存储一些元数据。
是否有一种存储和读取额外元数据的方法,例如,对每列是什么进行人工描述?
谢谢。
答案 0 :(得分:1)
无法在Parquet文件中读取或存储任意其他元数据。
在提到Parquet文件中的元数据时,它是指与该字段相关联的技术元数据,包括嵌套字段的数量,类型信息,长度信息等。如果您查看Parquet文档中的SchemaElement类( https://static.javadoc.io/org.apache.parquet/parquet-format/2.6.0/org/apache/parquet/format/SchemaElement.html),您将找到架构中每个字段的所有可用元数据。除了字段名之外,该字段不包含任何人类可读的描述。
有关Parquet元数据的概述,可以在此处的“文件格式”部分-https://parquet.apache.org/documentation/latest/