我想知道是否有任何命令/表达式只能获取hadoop中的文件名。我只需要获取文件的名称,当我hadoop fs -ls
时,它会打印整个路径。
我在下面试过,但只是想知道是否有更好的方法来做到这一点。
hadoop fs -ls <HDFS_DIR>|cut -d ' ' -f17
答案 0 :(得分:30)
似乎是hadoop ls does not support any options to output just the filenames,甚至只是最后一列。
如果您想要可靠地获取最后一列,您应该首先将空格转换为单个空格,以便随后可以找到最后一列:
hadoop fs -ls | sed '1d;s/ */ /g' | cut -d\ -f8
这将为您提供最后一列,但文件包含整个路径。如果你只想要文件名,你可以使用basename作为@rojomoke建议:
hadoop fs -ls | sed '1d;s/ */ /g' | cut -d\ -f8 | xargs -n 1 basename
我还过滤掉了Found ?x items
注意:请注意,正如@ felix-frank在评论中指出的那样,上述命令将无法正确保存具有多个连续空格的文件名。因此,菲利克斯提出了一个更正确的解决方案:
hadoop fs -ls /tmp | sed 1d | perl -wlne'print +(split " ",$_,8)[7]'
答案 1 :(得分:25)
以下命令仅返回文件名:
hdfs dfs -stat "%n" my/path/*
答案 2 :(得分:17)
我希望这可以帮助某人 - 版本2.8.x +(也可以在3中使用) -
hadoop fs -ls -C /paths/
答案 3 :(得分:1)
hadoop fs -ls -C /path/* | xargs -n 1 basename
答案 4 :(得分:0)
使用basename命令,该命令从字符串中删除以“/”结尾的任何前缀。
basename $(hadoop fs -ls)
答案 5 :(得分:0)
下面的命令只返回目录中的文件名。 Awk按'/'拆分列表并打印最后一个字段,即文件名。
hdfs dfs -ls /<folder> | awk -F'/' '{print $NF}'
答案 6 :(得分:0)
我经常使用的另一种解决方案。相关的东西很少:
<Typography />
和 Found x items
hdfs dfs -ls -d mypath/*
hdfs dfs -ls -d mypath/* | awk '{print $8}'
hdfs dfs -ls -d mypath/* | awk '{print $8}'| while read fn; do basename $fn; done