我正在尝试编写一个mySQL或hive查询,它可以帮助我聚合哪些文件夹包含最多的文件。假设我有以下文件夹路径。
/var/www/mysite/current/...../......
/var/www/mysite/backup/..../......
/var/www/misc/others/...../......
所以基本上查询应该在聚合后返回哪些文件夹具有最多的文件。例如,我们应该能够查看/ mysite中有多少文件,并且仍然可以告诉/ mysite / current中有多少来自/ mysite / backup。
更新1: 表格式
CREATE EXTERNAL TABLE hadoop_fs_images(
Path STRING,
Number_of_files DOUBLE
)