Pyspark检查hdfs文件夹修改日期

时间:2017-12-20 16:25:07

标签: pyspark hdfs

我是pyspark的新手。从pyspark想知道是否有一些功能可以获得HDFS折叠修改日期?

例如在HDFS中: enter image description here

在pyspark:

;

1 个答案:

答案 0 :(得分:3)

您可以使用Filesystem API来获取HDFS文件或目录的修改时间,然后使用python时间格式化函数来获取预期格式的日期。例如:

import time
path = lambda p: spark._jvm.org.apache.hadoop.fs.Path(p)
fs = spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration())

time_ts = fs.getFileStatus(path('/tmp')).getModificationTime()
print(time.strftime("%Y-%m-%d", time.localtime(time_ts / 1000)))