标签: hadoop hdfs cloudera cloudera-cdh bigdata
我们获得了容量为900TB的hdfs。由于存储的数据增长很多,因此难以跟踪哪些内容有用以及哪些内容可以删除。 我想分析以下模式的hdfs用法,以便最佳地使用容量。
答案 0 :(得分:1)
您可以从以下地址获取该数据:
(1)您是否启用了HDFS审核日志?阅读更多here。
(2)从fsimage开始阅读this - 有一个例子可以获得“长时间未被触摸/访问数据”
您可能还需要考虑HAR来归档数据(而不是删除) - 从而减少名称节点上的存储使用和宝贵的内存。