应用错误收集

在Spark中，我们可以通过将mergedSchema选项设置为true来读取具有不同架构的多个镶木文件。 Impala中是否有任何类似的功能允许我们将“外部”表指向具有多个具有不同架构的镶木文件的目录？

示例：我们有MEDICAL.parquet目录，在该目录下有两个子目录：data_supplier_id = 140060和data_supplier_id = 140059，在每个子目录下，每个文件都有其他子目录，例如file_uuid = vwefvkn-dfw16563e-qebebebeb，然后在每个file_uuid = ...目录下，我们都有实际的实木复合地板文件，每个file_uuid = ...都可能具有不同的架构。

在Spark中，我们仅将spark指向顶级目录（在本例中为Medical.parquet），它会在单个Dataset中读取其下的所有数据。

在创建外部表并将所有数据加载到它时，Impala中是否可以将其指向MEDICAL.parquet文件？而不是在每个file_uuid = ...目录上创建外部表。

在Parquet目录中的Impala中创建外部表，其中包含具有不同架构的多个Parquet文件

0 个答案: