我正在使用级联将文本分隔转换为镶木地板和& avro文件。我无法以与Avro相同的方式提供镶木地板元数据中的列的描述。当任何人使用数据集来获取有关数据集本身中字段的一些描述时,这将非常有用。
以下是Parquet Schema:
message LaunchApplication {
required int field1;
required binary field2;
optional binary field3;
required binary field4;
}
以下是avro架构:
{ "type":"record", "name":"CascadingAvroSchema", "namespace":"", "fields":[
{"name":"field1","type":"int","doc":"10,NOT NULL, KeyField"},
{"name":"field2","type":"string","doc":"5,NOT NULL, FLAG, Indicator},
{"name":"field3","type":["null","string"],"doc":"20,NULL, System Field."},
{"name":"field4","type":"string","doc":"20,NOT NULL,MM/DD/YYYY,Record Changed Date."} ]
}
如何跟踪" doc"在镶木地板的avro文件中的部分也是?
答案 0 :(得分:0)
实际上,Parquet也支持Avro模式。如果您使用Avro模式,则Parquet将从 推断Parquet模式,并将Avro模式存储在元数据中。