显示文件时间戳并使用Azure Databricks中的Scala从目录中选择最新文件

时间:2019-10-29 13:22:30

标签: scala azure-databricks

我想从目录中选择最新文件,并在天蓝色数据砖中使用scala代码显示所有文件的时间戳。

您能帮我吗?

1 个答案:

答案 0 :(得分:0)

我已经使用下面的代码尝试了这一点,效果很好。

`var basePath = "<Full_Path>"

 var files = Array[String]()
 var maxTS: Long = 0
 var TimeFile = collection.mutable.Map[Long, String]()
 val conf = new Configuration()
 val hdfs = FileSystem.get( conf )

 val f = new Path( basePath )
 val messageFile = hdfs.listFiles( f, true )

 while (messageFile.hasNext()) {
    val message = messageFile.next()
    if (message.getPath.toString().endsWith( "tsv" )) {
        files = files :+ message.getPath.toString()          
        TimeFile += ( message.getModificationTime -> message.getPath.toString())        

    }
  }`