胶水作业无法写入文件

时间:2019-07-16 15:54:13

标签: amazon-web-services amazon-s3 pyspark aws-glue

我通过胶水作业回填了一些数据。作业本身正在从s3中读取TSV,对数据进行少量转换,然后将其以Parquet写入S3。由于已经有了数据,因此我试图一次启动多个作业,以减少处理所有作业所需的时间。当我同时启动多个作业时,有时会遇到一个问题,其中一个文件将无法在S3中输出生成的Parquet文件。作业本身成功完成,没有引发错误。当我将作业作为非并行任务重新运行时,它将正确输出文件。是否存在胶水(或潜在火花)或S3引起我问题的问题?

1 个答案:

答案 0 :(得分:1)

并行运行的同一Glue作业可能会产生具有相同名称的文件,因此其中一些文件可能会被覆盖。我记得正确,转换上下文用作名称的一部分。我假设您没有启用书签,因此可以安全地动态生成转换上下文值,以确保它对于每个作业都是唯一的。