具有不同列集的Azure Blob文件

时间:2015-12-08 18:38:20

标签: azure hive

在Azure Blob容器中,存在具有不同列集的文件。

E.g。 File1:Col1,Col2,Col3 File2:Col1,Col3 File3:Col2,Col3

如何同时查询这些文件?

在PolyBase中似乎无法实现,因为文件需要具有相同的列集。

是否可以通过对列进行某种映射来使用Hive?

由于

穆罕默德

2 个答案:

答案 0 :(得分:0)

使用Hadoop和Hive,每次查询“表”时,都必须编写大量自定义代码来动态计算列。您的性能将受到很大影响,这样的代码库的可管理性将是一场噩梦。执行此操作的正确方法是移动每组文件,使其位于blob存储中的自己的“文件夹”中。这将允许Polybase / Hadoop本地管理它们。

话虽这么说,您可以从Hadoop的分布式架构中受益,为您重新组织文件。

答案 1 :(得分:-1)

列与Azure存储中的表更相关。这与blob无关。 Blob存储用于原始/非结构化文件