我正在通过Ambari使用Azure HDInsights,Azure Data Lake和Hive。
我正在设置测试环境。原始环境的数据以通过Hive加载的ORC文件的形式存储在Azure Data Lake中。我已通过Data Factory成功地将所有数据从原始Data Lake复制到测试Data Lake。
当我尝试在测试环境中创建Hive ORC表并查询它们时,不返回任何记录。各个数据湖上的架构/文件夹位置是相同的,我是否缺少与元存储相关的内容,因为它在测试中是不同的?
编辑:我想补充一点,我使用Polybase在SQL数据仓库中的测试环境的数据湖中建立了一个外部表,并且能够很好地读取数据。
答案 0 :(得分:0)
如chemikadze所述,运行FruitWrapper
对其进行了修复。我的表已分区,因此metastore不知道要查找某些子文件夹来定位数据。
以下模式现在可以帮助我完成环境复制: