我有一个Python脚本,它遍历目录中的所有文件并打印元数据,例如文件名,扩展名,大小,creating_time等。
问题是我想传递HDFS中的目录作为输入。 我不知道该如何处理。
我尝试了很多东西,例如hdfs3,pywebhdfs,snakebite等。 但是主要是这些扩展提供了基本的HDFS命令,我不知道如何访问HDFS中的文件夹。
for root, dirs, files in os.walk(MyDirectory):
for file in files:
if file.endswith(MyExtension):
#get File Name
a = (os.path.join(root, file))
#print a
filename = a
MyFileName = basename(a)
#get File Size
MyFileSize = getSize(filename) / 1000
print MyFileName + " >>> file size: " + str(MyFileSize) + "Kb"
在os.walk(MyDirectory)中,应该是hdfs目录的位置,在我的情况下:hdfs://quickstar.cloudera:8020 / user / cloudera / directory