是否可以有人帮我构建命令,以便从 HDFS 中的根目录中提取.snappy
个压缩文件的数量,这些文件大于100MB?
我使用此命令从根目录中获取.snappy文件的数量:
hdfs fsck / -files | grep ".snappy" | wc -l
现在我需要计算大于100MB的压缩文件。
答案 0 :(得分:1)
使用hdfs和awk命令应该这样做。这是片段
hdfs dfs -ls -R /path_to_dir/ | awk '{if ($5 >104857600 && $8~/\.snappy/) print $8}'
答案 1 :(得分:0)
这是使用awk的一个班轮:
hadoop fs -ls -R /|grep "snappy"|awk -F" " '{ if( $5 >= 104857600 ) print $5" "$8 }'