使用AWS Glue将很大的csv.gz(每个30-40 GB)转换为镶木地板

时间:2018-10-02 18:27:13

标签: amazon-web-services aws-glue

有很多这样的问题,但似乎无济于事。我正在尝试将相当大的csv.gz文件隐藏起来,并不断出现诸如此类的错误

'Command failed with exit code 1'

An error occurred while calling o392.pyWriteDynamicFrame. Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, ip-172-31-5-241.eu-central-1.compute.internal, executor 4): ExecutorLostFailure (executor 4 exited caused by one of the running tasks) Reason: Container marked as failed

。在指标监视中,我看不到太多的CPU或内存负载。有ETL数据移动,但是使用S3时应触发任何错误。

另一个问题是,这种作业在投掷前要运行4-5个小时。这是预期的行为吗? CSV文件的大小约为30-40列。

我不知道该往哪个方向走。胶水可以整体处理这么大的文件吗?

2 个答案:

答案 0 :(得分:2)

我认为问题不直接与DPU的数量有关。您的文件很大,并且正在使用无法拆分的GZIP格式,因此出现了此问题。

我建议将文件从GZIP转换为bzip2或lz4。另外,您应该考虑使用输出数据分区,以在将来获得更好的性能。

http://comphadoop.weebly.com/

答案 1 :(得分:0)

您正在使用多少DPU。 article很好地概述了DPU容量规划。希望能有所帮助。 AWS没有提供明确的规则手册来说明处理特定大小需要多少DPU。