Question

我想知道是否有任何命令/表达式只能获取hadoop中的文件名。我只需要获取文件的名称，当我hadoop fs -ls时，它会打印整个路径。

我在下面试过，但只是想知道是否有更好的方法来做到这一点。

hadoop fs -ls <HDFS_DIR>|cut -d ' ' -f17

Answer 1

如果您想要可靠地获取最后一列，您应该首先将空格转换为单个空格，以便随后可以找到最后一列：

hadoop fs -ls | sed '1d;s/  */ /g' | cut -d\  -f8

这将为您提供最后一列，但文件包含整个路径。如果你只想要文件名，你可以使用basename作为@rojomoke建议：

hadoop fs -ls | sed '1d;s/  */ /g' | cut -d\  -f8 | xargs -n 1 basename

我还过滤掉了Found ?x items

的第一行

注意：请注意，正如@ felix-frank在评论中指出的那样，上述命令将无法正确保存具有多个连续空格的文件名。因此，菲利克斯提出了一个更正确的解决方案：

hadoop fs -ls /tmp | sed 1d | perl -wlne'print +(split " ",$_,8)[7]'

Answer 2

以下命令仅返回文件名：

hdfs dfs -stat "%n" my/path/*

Answer 3

我希望这可以帮助某人 - 版本2.8.x +（也可以在3中使用） -

hadoop fs -ls  -C  /paths/

Answer 4

 hadoop fs -ls  -C  /path/* | xargs -n 1 basename

Answer 5

使用basename命令，该命令从字符串中删除以“/”结尾的任何前缀。

basename $(hadoop fs -ls)

Answer 6

下面的命令只返回目录中的文件名。 Awk按'/'拆分列表并打印最后一个字段，即文件名。

hdfs dfs -ls /<folder> | awk -F'/' '{print $NF}'

Answer 7

我经常使用的另一种解决方案。相关的东西很少：

Found x items

hdfs dfs -ls -d mypath/*

hdfs dfs -ls -d mypath/* | awk '{print $8}'

hdfs dfs -ls -d mypath/* | awk '{print $8}'| while read fn; do basename $fn; done