标签: scala apache-spark bigdata
我需要通过Unix脚本运行spark submit脚本。 10个文件将位于一个文件夹中,我需要为所有文件运行spark submit命令,因为所有文件都是相同的。 所以我需要使用spark submit命令并行处理所有这些文件意味着每次允许2个文件处理。一旦第一个文件进程成功,然后触发下一个作业。在时间2,考虑到文件的大小,应该在纱线上运行火花作业。
任何人都可以帮助我处理这种情况的Unix脚本。 感谢您的帮助!