在编写元数据文件时,ThriftParquetWriter实际上会生成两个文件: _metadata 和 _common_metadata
这两个文件有什么区别?它们具有不同的文件大小,因此必须存在差异
由于
答案 0 :(得分:3)
_common_metadata
包含该目录中镶木地板文件的合并模式
_metadata
将仅包含该目录中最近编写的镶木地板文件的架构
答案 1 :(得分:0)
情况似乎并非如此。我只在分层集中看到 _common_metadata (其中有编码为目录名称的列)。 _common_metadata 包含整个表的模式,包括那些分层列,而 _metadata 包含用于部分文件的模式(省略分层列),还包括所有文件的每个文件列统计信息(最小值、最大值等),及其完整的相对路径名。