HDFS文件以千兆字节排序

时间:2019-01-30 09:58:51

标签: bash shell hadoop hdfs

我正在尝试使HDFS用户空间利用率邮件自动化。

一切正常,除了gb中文件的排序。当我尝试使用字节时,它给出了正确的结果,但在其他方面却没有达到预期的输出。

请帮助我获得正确的输出。

我将提供我以字节为单位运行的脚本以及hdfs文件系统中的人类可读的-h。

bundle

2 个答案:

答案 0 :(得分:0)

您是否尝试在排序命令中使用“人类”格式,例如sort -rh 我没有dfs,但是下面的示例命令列出/排序了当前目录中的10个最大目录:

du -hsx * | sort -rh | head -10

答案 1 :(得分:0)

你可以试试 numfmt,像这样:

hdfs dfs -du -s  /user/* | numfmt --to iec