如何详细获取hdfs使用情况报告

时间:2016-06-22 17:57:10

标签: hadoop hdfs cloudera cloudera-cdh bigdata

我们获得了容量为900TB的hdfs。由于存储的数据增长很多,因此难以跟踪哪些内容有用以及哪些内容可以删除。 我想分析以下模式的hdfs用法,以便最佳地使用容量。

  1. 什么是经常访问的数据。
  2. 长时间未被触摸/访问的数据(可能的删除候选者)
  3. 用户分发的数据使用情况。
  4. 活跃用户。

1 个答案:

答案 0 :(得分:1)

您可以从以下地址获取该数据:

  • (1)HDFS审核日志(每个用户/ ip的访问模式)
  • (2)fsimage(每个文件的访问时间,未访问的数据)

(1)您是否启用了HDFS审核日志?阅读更多here

(2)从fsimage开始阅读this - 有一个例子可以获得“长时间未被触摸/访问数据”

您可能还需要考虑HAR来归档数据(而不是删除) - 从而减少名称节点上的存储使用和宝贵的内存。