Question

我正在使用级联将文本分隔转换为镶木地板和＆amp; avro文件。我无法以与Avro相同的方式提供镶木地板元数据中的列的描述。当任何人使用数据集来获取有关数据集本身中字段的一些描述时，这将非常有用。

以下是Parquet Schema：

message LaunchApplication {
   required int field1;
   required binary field2;
   optional binary field3;
   required binary field4;
 }

以下是avro架构：

{ "type":"record", "name":"CascadingAvroSchema", "namespace":"", "fields":[
  {"name":"field1","type":"int","doc":"10,NOT NULL, KeyField"},
  {"name":"field2","type":"string","doc":"5,NOT NULL, FLAG, Indicator},
  {"name":"field3","type":["null","string"],"doc":"20,NULL, System Field."},
  {"name":"field4","type":"string","doc":"20,NOT NULL,MM/DD/YYYY,Record Changed Date."}  ]
}

如何跟踪＆＃34; doc＆＃34;在镶木地板的avro文件中的部分也是？

Answer 1

实际上，Parquet也支持Avro模式。如果您使用Avro模式，则Parquet将从推断Parquet模式，并将Avro模式存储在元数据中。

如何在镶木地板模式定义中指定列描述

1 个答案: