我在Cento 7.2上的单节点hadoop群集HDFS中有400万个文件。由于我的应用程序有些损坏,数十万个重复文件存储在HDFS中。我想从hdfs中删除这些文件。
我尝试使用shell脚本,但它需要花费很多时间(2天内有100k文件)。脚本包含单个命令(hdfs dfs -rm --skipTrash <file path>
)
答案 0 :(得分:0)
试试这个
hdfs dfs -find <path> | xargs -n 1000 hdfs dfs -rm -skipTrash