我有一些实木复合地板文件,我想将其推送到redshift中。我对Parquet模式不太熟悉,但是我使用了Parquet-Tools模式cli命令来获取列名。这已经对我的某些镶木地板起作用了,因为我已经能够成功地将命令复制到我使用从以下使用的架构中设置的redshift表中:parquet-tools schema。
但是,当实木复合地板具有“重复组列表”时,创建用于容纳实木复合地板数据的表格会遇到麻烦。我尝试过的所有操作均导致copy命令失败,因此,感谢您的任何帮助!这是我的实木复合地板文件架构的输出:
message spark_schema {
optional binary guid (UTF8);
optional binary orgName (UTF8);
optional binary isOrgAuthoritative (UTF8);
optional binary degree (UTF8);
optional binary degreeGuid (UTF8);
optional binary graduationDate (UTF8);
optional group academicHonors (LIST) {
repeated group list {
optional group element {
optional binary honor (UTF8);
optional binary honorGuid (UTF8);
optional binary startDate (UTF8);
optional binary endDate (UTF8);
optional binary isStartDateComputed (UTF8);
optional binary isEndDateComputed (UTF8);
optional binary reportedDate (UTF8);
}
}
}
optional binary startDate (UTF8);
optional binary endDate (UTF8);
optional binary isStartDateComputed (UTF8);
optional binary isEndDateComputed (UTF8);
optional binary reportedDate (UTF8);
}