Eventhubutils库生成的进程目录在hdfs。https://github.com/Azure/spark-eventhubs/blob/master/docs/direct_stream.md中创建了许多小文件。由于这些小文件,namenode上有很多负载。有没有办法删除进度目录而不会干扰spark应用程序。
答案 0 :(得分:0)
根据我的经验,如果您当前的任务正在执行,则无法删除生成的文件。
在这里,我提供了两种方法来删除没有代码的文件供您参考。
第一种方式:
由于可以在HDFS
上找到azure blob storage container
上的文件,因此您可以直接在Azure门户上删除它们。如果您不想逐个删除文件,可以使用Azure Storage Explorer工具选择要删除的所有文件。
第二种方式:
您可以登录到群集计算机并使用rm command line:
hadoop fs -rm [-f] [-r |-R] [-skipTrash] URI [URI ...]
您可以在configuration file中找到相应的azure blob storage container
路径。
wasbs://yourcontainer@youraccount.blob.core.windows.net/testDir/testFile.
希望它对你有所帮助。