我需要将具有RCFile
作为存储格式的现有配置单元表格导出为hdfs并发布我需要将这些数据导入到以Avro
为存储格式的同一组配置单元格中。
因为,Avro不支持timestamp
和decimal
类型。因此,我需要分别为这些列使用String
和Float
数据类型。这种方法在导出和导入的hive表模式之间带来了一些不匹配。
我尝试导入一个现有的配置单元表,但由于模式不匹配问题,无法成功导入数据。
我正在考虑开发一种自动化方法,该方法允许定义的Bigquery表集由相应的Avro
源文件加载。现在,这些文件应该在GCS
存储桶中可用。我的自动化流程的一部分将确保此可用性,这将允许加载具有External
作为存储格式且Avro
作为存储位置的同一组GCS Bucket
Hive表。
所以整个过程可以总结如下: 表H in Hive->导出到HDFS位置 - >导入到Hive中的表B,其中Avro作为存储类型,GCS作为存储位置 - >使用上一步生成的Avro文件加载Bigquery表C
是否有任何方法可以使这种导出导入机制正常工作而不管这些数据类型不匹配?