创建FileMetadata的RDD

时间:2017-03-15 09:17:53

标签: apache-spark

我们有以下命名约定的文件。每个文件大小,如果几KB,我们在NFS中有数百万。

  

" XXXXXXXXXX..YYMMDD.HHMMSS.NNNN.tarbz2

我们希望每个月只加载最后5个文件" XXXXXXXXXX"。

我们可以执行文件系统调用来获取文件名,并将一组过滤的文件提供给sc.binaryFiles。但这似乎是黑客攻击,一旦我们转移到HDFS就可能无法工作!!!

有没有更好的方法在spark中实现这个用例?

0 个答案:

没有答案