在Azure Blob容器中,存在具有不同列集的文件。
E.g。 File1:Col1,Col2,Col3 File2:Col1,Col3 File3:Col2,Col3
如何同时查询这些文件?
在PolyBase中似乎无法实现,因为文件需要具有相同的列集。
是否可以通过对列进行某种映射来使用Hive?
由于
穆罕默德
答案 0 :(得分:0)
使用Hadoop和Hive,每次查询“表”时,都必须编写大量自定义代码来动态计算列。您的性能将受到很大影响,这样的代码库的可管理性将是一场噩梦。执行此操作的正确方法是移动每组文件,使其位于blob存储中的自己的“文件夹”中。这将允许Polybase / Hadoop本地管理它们。
话虽这么说,您可以从Hadoop的分布式架构中受益,为您重新组织文件。
答案 1 :(得分:-1)
列与Azure存储中的表更相关。这与blob无关。 Blob存储用于原始/非结构化文件