如何在镶木地板模式定义中指定列描述

时间:2015-12-10 21:45:28

标签: hadoop parquet

我正在使用级联将文本分隔转换为镶木地板和& avro文件。我无法以与Avro相同的方式提供镶木地板元数据中的列的描述。当任何人使用数据集来获取有关数据集本身中字段的一些描述时,这将非常有用。

以下是Parquet Schema:

message LaunchApplication {
   required int field1;
   required binary field2;
   optional binary field3;
   required binary field4;
 }

以下是avro架构:

{ "type":"record", "name":"CascadingAvroSchema", "namespace":"", "fields":[
  {"name":"field1","type":"int","doc":"10,NOT NULL, KeyField"},
  {"name":"field2","type":"string","doc":"5,NOT NULL, FLAG, Indicator},
  {"name":"field3","type":["null","string"],"doc":"20,NULL, System Field."},
  {"name":"field4","type":"string","doc":"20,NOT NULL,MM/DD/YYYY,Record Changed Date."}  ]
}

如何跟踪" doc"在镶木地板的avro文件中的部分也是?

1 个答案:

答案 0 :(得分:0)

实际上,Parquet也支持Avro模式。如果您使用Avro模式,则Parquet将从 推断Parquet模式,并将Avro模式存储在元数据中。