如何删除由来自eventhub的spark -streaming应用程序接收消息生成的进度目录

时间:2017-10-24 11:33:36

标签: azure spark-streaming azure-eventhub

Eventhubutils库生成的进程目录在hdfs。https://github.com/Azure/spark-eventhubs/blob/master/docs/direct_stream.md中创建了许多小文件。由于这些小文件,namenode上有很多负载。有没有办法删除进度目录而不会干扰spark应用程序。

enter image description here

1 个答案:

答案 0 :(得分:0)

根据我的经验,如果您当前的任务正在执行,则无法删除生成的文件。

在这里,我提供了两种方法来删除没有代码的文件供您参考。

第一种方式:

由于可以在HDFS上找到azure blob storage container上的文件,因此您可以直接在Azure门户上删除它们。如果您不想逐个删除文件,可以使用Azure Storage Explorer工具选择要删除的所有文件。

第二种方式:

您可以登录到群集计算机并使用rm command line:

hadoop fs -rm [-f] [-r |-R] [-skipTrash] URI [URI ...]

您可以在configuration file中找到相应的azure blob storage container路径。

wasbs://yourcontainer@youraccount.blob.core.windows.net/testDir/testFile.

希望它对你有所帮助。