应用错误收集

我正在Hive（HDP 3.1）中执行插入覆盖操作。问题在于，它会继续添加基本文件和增量文件，其中基本文件包含新插入的数据，而增量文件包含旧数据，然后再进行覆盖操作。

在Hive上查询仅为我提供了新添加的数据，但涉及到火花时-倾向于从驻留在HDFS位置的增量文件和基础文件中输出旧数据和新数据。

我需要在下面找到解决方法-

1）有什么方法不允许Hive在使用插入覆盖操作时首先存储增量文件-（任何设置？）

2）为什么星火要获取旧数据？是否始终在内部引用表位置？如何阻止它读取增量文件？

注意：如HDP文档中所述，我们的管理员已配置Hive Warehouse连接器以从Hive中的任何数据库读取。而且我不想在将数据读入spark之前使用 hadoop fs -rm -r文件手动删除文件。任何人都可以提供任何指针。

谢谢。