我在哪里可以看到最近的HDFS使用统计信息(文件夹,文件,时间戳)?

时间:2017-03-28 08:50:57

标签: hadoop hdfs cloudera diskspace

过去10天我在HDFS上看到了大量的磁盘使用情况。正如我在Cloudera Manager上的Hosts选项卡上的DataNode主机和HDFS上的磁盘使用情况图表中看到的那样,服务使用率几乎增加了两倍,大约为7TB到〜20TB。起初我在想这个原因是我在这10天的第6天对CM和CDH进行的升级中做错了,但意识到它已经开始出现了。

我首先检查了Cloudera Manager上的文件浏览器,但之前和之前的大小数字没有区别。我还有过去4天的磁盘使用情况报告,他们说没有增加。

运行hdfs dfsadmin -report也会返回相同的内容。

Linux上的dfs文件夹确认了越来越多的用法,但由于有数百万个文件而且我不知道如何在数千个嵌套文件夹中检查最后修改过的文件,因此无法确定已更改的内容。即使我找到它们,我也无法分辨HDFS上的文件。

然后就在最近,我被告知HDFS上的另一个用户已经拆分了他们的大文件。他们拥有近2/3的所有数据。如果它们将它们分成比HDFS块大小更小的数量,它会导致这么大的增加吗?如果是这样,为什么我不能在浏览器/报告上看到它?

有没有办法检查最近在HDFS中修改了哪些文件夹和文件或我可以检查/做的其他事情?任何建议或意见表示赞赏。

1 个答案:

答案 0 :(得分:0)

为了检查HDFS活动,Cloudera Navigator提供了有关HDFS中记录的所有事件的绝佳信息。

登录导航器后,检查审核选项卡。它还允许我们过滤诸如删除,ipaddress,用户名和许多此类事件之类的活动。

普通搜索页面还提供我们过滤块大小(无论是<256Mb,> 256 Mb),文件或目录,源类型,路径,复制计数等等。