应用错误收集

所以，基本上，我有一个只读文件（几个GB大，所以广播是没有选项）必须复制到节点上的本地文件夹，因为每个任务在内部运行一个程序（通过使用os.system in从scala中读取的python或！运算符（无法从HDFS读取）。但问题是，一个节点上将运行多个任务。如果该节点上尚未存在该文件，则应将其从HDFS复制到本地目录。但是我怎么能有一个任务从HDFS获取文件，而其他任务等待它（注意每个任务将在节点上并行运行）。我可以在Spark中使用哪种文件同步机制来实现这个目的？

将文件从HDFS复制到本地目录以获取节点上的多个任务？

0 个答案: