标签: scala hadoop apache-spark hdfs bigdata
所以,基本上,我有一个只读文件(几个GB大,所以广播是没有选项)必须复制到节点上的本地文件夹,因为每个任务在内部运行一个程序(通过使用os.system in从scala中读取的python或!运算符(无法从HDFS读取)。但问题是,一个节点上将运行多个任务。如果该节点上尚未存在该文件,则应将其从HDFS复制到本地目录。但是我怎么能有一个任务从HDFS获取文件,而其他任务等待它(注意每个任务将在节点上并行运行)。我可以在Spark中使用哪种文件同步机制来实现这个目的?