我正在Hive(HDP 3.1)中执行插入覆盖操作。问题在于,它会继续添加基本文件和增量文件,其中基本文件包含新插入的数据,而增量文件包含旧数据,然后再进行覆盖操作。
在Hive上查询仅为我提供了新添加的数据,但涉及到火花时-倾向于从驻留在HDFS位置的增量文件和基础文件中输出旧数据和新数据。
我需要在下面找到解决方法-
1)有什么方法不允许Hive在使用插入覆盖操作时首先存储增量文件-(任何设置?)
2)为什么星火要获取旧数据?是否始终在内部引用表位置?如何阻止它读取增量文件?
注意:如HDP文档中所述,我们的管理员已配置Hive Warehouse连接器以从Hive中的任何数据库读取。而且我不想在将数据读入spark之前使用 hadoop fs -rm -r文件手动删除文件。任何人都可以提供任何指针。
谢谢。