尝试获取文件超过500000的Hadoop集群中所有目录的列表。如果父目录具有超过500000的文件,则脚本应列出子目录并对其进行hdfs计数以确定目录500000个文件,并列出一个子目录的子目录,然后进行计数以查找包含超过500000个文件的最终子目录。必须从/
开始对整个集群执行此操作hdfs dfs -ls / | grep'^ d'| awk'{print $ NF}'|边读边hdfs dfs -count $ line | awk'$ 2> 500000 {print $ 1,$ 2,$ 3,$ 4}'
此列表仅列出根目录的子目录,需要能够对500000的子目录级别执行操作,而忽略其他文件较少的子目录