如何使用scala获取包含csv.gz目录的tar目录中的所有csv文件?

时间:2018-03-27 08:59:02

标签: scala spark-dataframe rdd tar gz

我有以下问题:假设我有一个包含压缩目录.tar的目录,其中包含多个文件.csv.gz。我想获取父压缩directorie * .tar中的所有csv.gz文件。我使用scala 2.11.7 这棵树

   file.tar
       |file1.csv.gz
             file11.csv
       |file2.csv.gz
             file21.csv
       |file3.csv.gz
             file31.csv 

我想从file.tar获取一个文件列表:file1.csv.gz,file2.csv.gz file3.csv.gz,之后可以从每个文件csv.gz创建数据帧来进行一些转换。

0 个答案:

没有答案