在HDFS中,分区数据存储为多个文件,例如
hdfs://user/hive/warehouse/TABLE_NAME/column_1="VALUE"/column_2="VALUE"/000000
大型查询是否支持按原样加载这些文件,还是有必要将数据拼合为一个文件? 文档中未提及任何有关按原样加载文件的信息。
答案 0 :(得分:0)
bigquery可以将多个文件加载到同一目录下,因此无需拼合。 下面是示例代码:
bq load --replace --quote "" -F"\t" ${db_name}.${tgt_table_name}\$${bq_partition} gs://bucket_name/folder/*
让我知道它是否有帮助。