标签: scala apache-spark dataframe amazon-s3
我有一个要求,我必须创建多个中间数据框,我需要写入不同的目录。
--add-modules
我尝试了两个选项 -
使用Oozie fork-join创建4个单独的作业并同时生成所有4个作业,但这里的另一面是读取相同数据的所有4个作业,
创建1个作业并在转换后写入4个目录,这里的另一面是使用df1的输出数据的作业必须等到所有4个df的写入完成后才能完成。
此外,写入S3的每个职位或个人花费了IO总时间的70-75%。
还有其他方法我可以使用或尝试吗?