在Parquet目录中的Impala中创建外部表,其中包含具有不同架构的多个Parquet文件

时间:2018-10-25 19:19:29

标签: hadoop impala

在Spark中,我们可以通过将mergedSchema选项设置为true来读取具有不同架构的多个镶木文件。 Impala中是否有任何类似的功能允许我们将“外部”表指向具有多个具有不同架构的镶木文件的目录?

示例: 我们有MEDICAL.parquet目录,在该目录下有两个子目录:data_supplier_id = 140060和data_supplier_id = 140059,在每个子目录下,每个文件都有其他子目录,例如file_uuid = vwefvkn-dfw16563e-qebebebeb,然后在每个file_uuid = ...目录下,我们都有实际的实木复合地板文件,每个file_uuid = ...都可能具有不同的架构。

在Spark中,我们仅将spark指向顶级目录(在本例中为Medical.parquet),它会在单个Dataset中读取其下的所有数据。

在创建外部表并将所有数据加载到它时,Impala中是否可以将其指向MEDICAL.parquet文件?而不是在每个file_uuid = ...目录上创建外部表。

0 个答案:

没有答案