标签: java scala hadoop apache-spark hdfs
所以,我的程序从文件夹中读取输入文件。这些输入文件是压缩的,因此它们只被赋予一个地图任务。是否可以动态填充输入文件夹,以便在将zip文件上载到输入文件夹时,为每个新的zip文件分配一个map任务。当所有zip文件最终上传到输入文件夹时,也表示输入文件夹现已满。这样,在运行我的spark程序之前,我不必等待输入文件夹已满。