我见过 Move data from hive tables in Google Dataproc to BigQuery Migrate hive table to Google BigQuery
但是distcp的问题是,它会将数据从hdfs移动到gs ..而我的表是ORC格式。到目前为止,bigquery声称只支持JSON,CSV,AVRO。
因此需要帮助将数据从hive表(ORC格式)传输到BigQuery(任何格式)
答案 0 :(得分:3)
如Elliot所述,ORC不受支持。因此,您必须将ORC数据转换为您提到的3种格式之一。 我个人更喜欢Avro,因为这种序列化比JSON或CSV更强大。
所以要遵循的过程是:
答案 1 :(得分:0)
orc受支持,您可以从GCP控制台轻松创建表。
https://cloud.google.com/bigquery/docs/loading-data-cloud-storage-orc
我已经做到了。
注意:在hive表的情况下,orc文件中从未提及表的架构,因此在上载时,您将获得如下图所示的列名。创建表后,您需要重命名和更新列名。