将文件从HDFS复制到本地目录以获取节点上的多个任务?

时间:2016-05-03 12:20:02

标签: scala hadoop apache-spark hdfs bigdata

所以,基本上,我有一个只读文件(几个GB大,所以广播是没有选项)必须复制到节点上的本地文件夹,因为每个任务在内部运行一个程序(通过使用os.system in从scala中读取的python或!运算符(无法从HDFS读取)。但问题是,一个节点上将运行多个任务。如果该节点上尚未存在该文件,则应将其从HDFS复制到本地目录。但是我怎么能有一个任务从HDFS获取文件,而其他任务等待它(注意每个任务将在节点上并行运行)。我可以在Spark中使用哪种文件同步机制来实现这个目的?

0 个答案:

没有答案