标签: apache-spark
我们有以下命名约定的文件。每个文件大小,如果几KB,我们在NFS中有数百万。
" XXXXXXXXXX..YYMMDD.HHMMSS.NNNN.tarbz2
我们希望每个月只加载最后5个文件" XXXXXXXXXX"。
我们可以执行文件系统调用来获取文件名,并将一组过滤的文件提供给sc.binaryFiles。但这似乎是黑客攻击,一旦我们转移到HDFS就可能无法工作!!!
有没有更好的方法在spark中实现这个用例?