我想检查我的hdfs中的所有文件。我将不得不每天检查一次。例如,我想了解dir_count,file_count,content_size和路径名。以下命令满足了我的要求
hdfs dfs -count -h -v /apps
DIR_COUNT FILE_COUNT CONTENT_SIZE PATHNAME
66 121 919.8 K /apps
所以我所做的就是这样
hdfs dfs -ls -R / | awk '{system("hdfs dfs -count -h " $8) }' >fullDirectory.txt
在此,我首先递归列出目录中的所有文件,然后将其作为参数传递给上述命令。该命令成功运行,但是花费的时间很长,是否有任何方法可以更快地获得结果?还是有一种更简单的方法来实现我的预期结果?任何建议都欢迎。我对此很陌生,如果您对代码/解决方案的功能有更多的解释,将不胜感激。
谢谢!