AWS Glue:ETL作业会创建许多空的输出文件

时间:2018-10-25 15:38:43

标签: amazon-web-services aws-glue

我对此很陌生,所以不确定是否可以简化此脚本/如果我做错了什么导致这种情况发生。我已经为AWS Glue编写了ETL脚本,该脚本写入了S3存储桶中的目录。

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.dynamicframe import DynamicFrame
from awsglue.job import Job

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

# catalog: database and table names
db_name = "events"
tbl_base_event_info = "base_event_info"
tbl_event_details = "event_details"

# output directories
output_dir = "s3://whatever/output"

# create dynamic frames from source tables
base_event_source = glueContext.create_dynamic_frame.from_catalog(database = db_name, table_name = tbl_base_event_info)
event_details_source = glueContext.create_dynamic_frame.from_catalog(database = db_name, table_name = tbl_event_details)

# join frames
base_event_source_df = workout_event_source.toDF()
event_details_source_df = workout_device_source.toDF()
enriched_event_df = base_event_source_df.join(event_details_source_df, "event_id")
enriched_event = DynamicFrame.fromDF(enriched_event_df, glueContext, "enriched_event")

# write frame to json files 
datasink = glueContext.write_dynamic_frame.from_options(frame = enriched_event, connection_type = "s3", connection_options = {"path": output_dir}, format = "json")
job.commit()

base_event_info表具有4列:event_idevent_nameplatformclient_info event_details表具有2列:event_idevent_details

联接的表架构应类似于:event_idevent_nameplatformclient_infoevent_details

运行此作业后,我希望得到2个json文件,因为这是结果联接表中的记录数。 (表中有两个记录,它们具有相同的event_id。但是,我得到的是大约200个文件,格式为run-1540321737719-part-r-00000run-1540321737719-part-r-00001等:

  • 198个文件包含0个字节
  • 2个文件包含250个字节(每个文件具有与扩展事件相对应的正确信息)

这是预期的行为吗?为什么这项工作会产生那么多空文件?我的脚本有问题吗?

3 个答案:

答案 0 :(得分:1)

Spark SQL模块包含以下默认配置:

  

spark.sql.shuffle.partitions设置为200。

这就是为什么您首先获得200个文件的原因。 您可以通过执行以下操作来检查是否是这种情况:

enriched_event_df.rdd.getNumPartitions()

如果您获得200的值,则可以使用以下代码更改要生成的文件数:

enriched_event_df.repartition(2)

上面的代码将仅使用您的数据创建两个文件。

答案 1 :(得分:0)

以我的经验,空的输出文件指向转换中的错误。 您可以使用error functions调试它们。

顺便说一句。为什么要使用Spark DataFrames而不是DynamicFrames进行联接?

答案 2 :(得分:-1)

您可以通过 spark sql 转换步骤将 column like timestamp 添加到数据帧而不是重新分区,并在将数据帧写入 S3 时将其添加为分区键

例如: select replace(replace(replace(string(date_trunc('HOUR',current_timestamp())),'-',''),':',''),' ','') as datasetdate, * from myDataSource;

在写dynamicframe时使用datasetdate作为partitionkey,粘合作业应该能够自动添加分区