标签: apache-spark hadoop hdfs hadoop2 cloudera-cdh
我正在尝试使用以下命令获取摄取到群集中的所有源的HDFS的块数,文件大小和零字节文件,
hdfs fsck -blocks -files /source/file1.txt hdfs fsck -blocks -files /source/file2.txt等,用于群集中的所有源。
hdfs fsck -blocks -files /source/file1.txt
hdfs fsck -blocks -files /source/file2.txt等,用于群集中的所有源。
如果每个源或目录中都有数百万个文件要发出fsck来了解每个文件的块数和大小,以防万一。
这会在名称节点上造成开销吗?如果是这样,那么了解我们已提取到HDFS的每个源或目录的阻止报告的更好方法是什么?