计算大于100MB的hdfs压缩文件

时间:2016-01-11 23:35:51

标签: hadoop awk grep hdfs bigdata

是否可以有人帮我构建命令,以便从 HDFS 中的根目录中提取.snappy个压缩文件的数量,这些文件大于100MB?

我使用此命令从根目录中获取.snappy文件的数量:

hdfs fsck / -files | grep ".snappy" | wc -l

现在我需要计算大于100MB的压缩文件。

2 个答案:

答案 0 :(得分:1)

使用hdfs和awk命令应该这样做。这是片段

hdfs dfs -ls -R /path_to_dir/ | awk '{if ($5 >104857600 && $8~/\.snappy/) print $8}'

答案 1 :(得分:0)

这是使用awk的一个班轮:

hadoop fs -ls -R /|grep "snappy"|awk -F" " '{ if( $5 >= 104857600 ) print $5" "$8 }'