应用错误收集

同时将多个数据帧写入S3

时间：2018-04-11 10:39:11

标签： scala apache-spark dataframe amazon-s3

我有一个要求，我必须创建多个中间数据框，我需要写入不同的目录。

--add-modules

我尝试了两个选项 -

使用Oozie fork-join创建4个单独的作业并同时生成所有4个作业，但这里的另一面是读取相同数据的所有4个作业，
创建1个作业并在转换后写入4个目录，这里的另一面是使用df1的输出数据的作业必须等到所有4个df的写入完成后才能完成。

此外，写入S3的每个职位或个人花费了IO总时间的70-75％。

还有其他方法我可以使用或尝试吗？

0 个答案:

没有答案