我有一个HDFS目录,其中包含数千条记录,并且包含不同的文件名。我必须根据文件名对文件进行计数。 由于我有成千上万个文件,因此我无法指定具体的文件名进行计数。
例如,目录包含以下文件
/a/b/a.txt
/a/b/b.txt
/a/b/c.txt
/a/b/a.txt
/a/b/b.txt
/a/b/c.txt
结果应该是
a.txt 2
b.txt 2
c.txt 2
答案 0 :(得分:0)
这绝不是一个有效的解决方案,但是如果您只想快速编写一些脚本,它将这样做:
find . -exec basename {} \; | sort | uniq -c | sort
说明:
.
在我的系统上,这看起来像
uniq