Question

我读了一个镶木地板：

df = spark.read.parquet(file_name)

并使用以下内容获取列：

df.columns

并返回列['col1'，'col2'，'col3']的列表

我读到实木复合地板格式能够在文件中存储一些元数据。

是否有一种存储和读取额外元数据的方法，例如，对每列是什么进行人工描述？

谢谢。

Answer 1

无法在Parquet文件中读取或存储任意其他元数据。

在提到Parquet文件中的元数据时，它是指与该字段相关联的技术元数据，包括嵌套字段的数量，类型信息，长度信息等。如果您查看Parquet文档中的SchemaElement类（ https://static.javadoc.io/org.apache.parquet/parquet-format/2.6.0/org/apache/parquet/format/SchemaElement.html），您将找到架构中每个字段的所有可用元数据。除了字段名之外，该字段不包含任何人类可读的描述。

有关Parquet元数据的概述，可以在此处的“文件格式”部分-https://parquet.apache.org/documentation/latest/

使用Parquet格式附加Apache Spark中的列描述

1 个答案: