获取包含超过50000个文件的整个Hadoop集群的目录列表

时间:2019-07-08 05:41:04

标签: file count hdfs

尝试获取文件超过500000的Hadoop集群中所有目录的列表。如果父目录具有超过500000的文件,则脚本应列出子目录并对其进行hdfs计数以确定目录500000个文件,并列出一个子目录的子目录,然后进行计数以查找包含超过500000个文件的最终子目录。必须从/

开始对整个集群执行此操作

hdfs dfs -ls / | grep'^ d'| awk'{print $ NF}'|边读边hdfs dfs -count $ line | awk'$ 2> 500000 {print $ 1,$ 2,$ 3,$ 4}'

此列表仅列出根目录的子目录,需要能够对500000的子目录级别执行操作,而忽略其他文件较少的子目录

0 个答案:

没有答案