应用错误收集

我在HDInsights / Azure Spark 2.2群集上使用Hive，通过Ambari提交查询，数据存储在Azure Data Lake上的外部表中。临时表和目标表已分区。

我一直在努力在Hive中加载数据。数据流来自.gz文件->临时表->目标表。这是一个增量负载，从目标到着陆点之间进行左连接以保留旧数据，然后将所有数据与新数据合并为整个集合。

我注意到一些对我来说似乎很奇怪的行为，希望能收集更多的见解。

观察1：在运行完脚本之后，我注意到原始table / gz文件中的登台或目标中没有新数据。我不希望那样，因为那里有UNION ALL。

观察2：我做了一个步骤，从.gz文件/表手动将数据加载到我的登台表中。我在上面运行一个简单的count（*）。它返回39k，太好了。我尝试运行select *，其中val = XYZ，它返回记录，再次好。我在该表达式上放置了一个count（*），开始返回0条记录。

很抱歉，我的想法很混乱，但想知道是否有人遇到类似的事件以及如何克服这些事件。让我知道需要任何澄清。