在Spark中即时读取输入文件

时间:2016-11-18 19:13:11

标签: java scala hadoop apache-spark hdfs

所以,我的程序从文件夹中读取输入文件。这些输入文件是压缩的,因此它们只被赋予一个地图任务。是否可以动态填充输入文件夹,以便在将zip文件上载到输入文件夹时,为每个新的zip文件分配一个map任务。当所有zip文件最终上传到输入文件夹时,也表示输入文件夹现已满。这样,在运行我的spark程序之前,我不必等待输入文件夹已满。

P.S:我不想为此使用任何流媒体框架。但如果这是唯一可能的选择,请告诉我。

0 个答案:

没有答案