蜂巢数据流问题

时间:2018-06-29 00:01:10

标签: hive azure-data-lake hdinsight

我在HDInsights / Azure Spark 2.2群集上使用Hive,通过Ambari提交查询,数据存储在Azure Data Lake上的外部表中。临时表和目标表已分区。

我一直在努力在Hive中加载数据。数据流来自.gz文件->临时表->目标表。这是一个增量负载,从目标到着陆点之间进行左连接以保留旧数据,然后将所有数据与新数据合并为整个集合。

我注意到一些对我来说似乎很奇怪的行为,希望能收集更多的见解。

观察1:在运行完脚本之后,我注意到原始table / gz文件中的登台或目标中没有新数据。我不希望那样,因为那里有UNION ALL。

观察2:我做了一个步骤,从.gz文件/表手动将数据加载到我的登台表中。我在上面运行一个简单的count(*)。它返回39k,太好了。我尝试运行select *,其中val = XYZ,它返回记录,再次好。我在该表达式上放置了一个count(*),开始返回0条记录。

很抱歉,我的想法很混乱,但想知道是否有人遇到类似的事件以及如何克服这些事件。让我知道需要任何澄清。

1 个答案:

答案 0 :(得分:0)

您确定密钥中没有空格吗?你尝试过trim(val)吗?

观察2确实令人惊讶:在谓词相同的地方,您将返回带有select *的行,但没有带select(*)的行?

您可以包括SQL查询和一些数据行吗?