Question

我有一个HDFS目录，其中包含数千条记录，并且包含不同的文件名。我必须根据文件名对文件进行计数。由于我有成千上万个文件，因此我无法指定具体的文件名进行计数。

例如，目录包含以下文件

/a/b/a.txt

/a/b/b.txt

/a/b/c.txt

/a/b/a.txt

/a/b/b.txt

/a/b/c.txt

结果应该是

a.txt 2

b.txt 2

c.txt 2

Answer 1

这绝不是一个有效的解决方案，但是如果您只想快速编写一些脚本，它将这样做：

find . -exec basename {} \; | sort | uniq -c | sort

说明：

在我的系统上，这看起来像

uniq