我们正在使用HDP hadoop发行版v2.3.2,我们正在处理Hive外部表,并且每天都会查询这些表。
自流程启动几天后,数据目录包含许多具有以下格式的暂存目录: .hive-staging_hive_date-time _ 生成了许多暂存目录,每个暂存目录对应于在Hive表上运行的查询。
如何避免将这些暂存目录堆积到我的数据目录中?
答案 0 :(得分:1)
我在https://stackoverflow.com/a/35583367/14186发布的答案可能会对您有所帮助。您可以将Hive配置为将这些暂存目录放在其他位置(通常将它们作为最终目标目录的子目录)
在这个答案的例子中,我有一个hive将它们放在/ tmp下的dirs中,我们每天都有一个cron-job来删除任何超过1周的剩余分段目录以保持整洁,以防万一不会删除它们。