如果列数据类型与

时间:2017-12-01 13:43:27

标签: hadoop hive google-bigquery avro

我需要将具有RCFile作为存储格式的现有配置单元表格导出为hdfs并发布我需要将这些数据导入到以Avro为存储格式的同一组配置单元格中。

因为,Avro不支持timestampdecimal类型。因此,我需要分别为这些列使用StringFloat数据类型。这种方法在导出和导入的hive表模式之间带来了一些不匹配。 我尝试导入一个现有的配置单元表,但由于模式不匹配问题,无法成功导入数据。

我正在考虑开发一种自动化方法,该方法允许定义的Bigquery表集由相应的Avro源文件加载。现在,这些文件应该在GCS存储桶中可用。我的自动化流程的一部分将确保此可用性,这将允许加载具有External作为存储格式且Avro作为存储位置的同一组GCS Bucket Hive表。

所以整个过程可以总结如下: 表H in Hive->导出到HDFS位置 - >导入到Hive中的表B,其中Avro作为存储类型,GCS作为存储位置 - >使用上一步生成的Avro文件加载Bigquery表C

是否有任何方法可以使这种导出导入机制正常工作而不管这些数据类型不匹配?

0 个答案:

没有答案