Hive查询生成管理不当的登台目录

时间:2016-02-03 11:46:23

标签: hadoop hive bigdata

我们正在使用HDP hadoop发行版v2.3.2,我们正在处理Hive外部表,并且每天都会查询这些表。

自流程启动几天后,数据目录包含许多具有以下格式的暂存目录: .hive-staging_hive_date-time _  生成了许多暂存目录,每个暂存目录对应于在Hive表上运行的查询。

如何避免将这些暂存目录堆积到我的数据目录中?

1 个答案:

答案 0 :(得分:1)

我在https://stackoverflow.com/a/35583367/14186发布的答案可能会对您有所帮助。您可以将Hive配置为将这些暂存目录放在其他位置(通常将它们作为最终目标目录的子目录)

在这个答案的例子中,我有一个hive将它们放在/ tmp下的dirs中,我们每天都有一个cron-job来删除任何超过1周的剩余分段目录以保持整洁,以防万一不会删除它们。