如何从Python脚本访问HDFS中的目录?

时间:2019-06-03 22:46:26

标签: python hadoop hdfs

我有一个Python脚本,它遍历目录中的所有文件并打印元数据,例如文件名,扩展名,大小,creating_time等。

问题是我想传递HDFS中的目录作为输入。 我不知道该如何处理。

我尝试了很多东西,例如hdfs3,pywebhdfs,snakebite等。 但是主要是这些扩展提供了基本的HDFS命令,我不知道如何访问HDFS中的文件夹。

for root, dirs, files in os.walk(MyDirectory):
    for file in files:
        if file.endswith(MyExtension):
            #get File Name
            a = (os.path.join(root, file))
            #print a
            filename = a
            MyFileName = basename(a)

            #get File Size
            MyFileSize = getSize(filename) / 1000
            print MyFileName + " >>> file size: " + str(MyFileSize) + "Kb"

在os.walk(MyDirectory)中,应该是hdfs目录的位置,在我的情况下:hdfs://quickstar.cloudera:8020 / user / cloudera / directory

0 个答案:

没有答案