查询从单独环境复制的Hive中的ORC数据

时间:2018-07-11 20:37:24

标签: hive azure-data-lake hdinsight

我正在通过Ambari使用Azure HDInsights,Azure Data Lake和Hive。

我正在设置测试环境。原始环境的数据以通过Hive加载的ORC文件的形式存储在Azure Data Lake中。我已通过Data Factory成功地将所有数据从原始Data Lake复制到测试Data Lake。

当我尝试在测试环境中创建Hive ORC表并查询它们时,不返回任何记录。各个数据湖上的架构/文件夹位置是相同的,我是否缺少与元存储相关的内容,因为它在测试中是不同的?

编辑:我想补充一点,我使用Polybase在SQL数据仓库中的测试环境的数据湖中建立了一个外部表,并且能够很好地读取数据。

1 个答案:

答案 0 :(得分:0)

如chemikadze所述,运行FruitWrapper对其进行了修复。我的表已分区,因此metastore不知道要查找某些子文件夹来定位数据。

以下模式现在可以帮助我完成环境复制:

  1. 创建Data Factory Pipeline以从Dev-> Test复制Data Lake文件夹。
  2. 在测试环境中运行Hive DDL。
  3. 在测试环境中创建的每个分区表上运行修复表命令。