使用Amazon Glue将一行转换为多行

时间:2017-10-23 21:10:36

标签: apache-spark pyspark bigdata aws-glue

我尝试使用Amazon Glue将一行变成多行。我的目标就像SQL UNPIVOT。

我有一个管道分隔的文本文件,360GB,压缩(gzip)。它有超过1,620列。这是基本布局:

primary_key|property1_name|property1_value|property800_name|property800_value
12345|is_male|1|is_college_educated|1

这些属性名称/值字段有800多个。大约有2.8亿行。该文件位于S3存储桶中。我需要将数据导入Redshift,但Redshift中的列限制为1,600。

用户希望我取消数据。例如:

primary_key|key|value
12345|is_male|1
12345|is_college_educated|1

我相信我可以使用Amazon Glue。但是,这是我第一次使用Glue。我正在努力找到一个很好的方法来做到这一点。一些pySpark扩展转换看起来很有希望(也许,#34; Map"或" Relationalize")。见http://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-etl-scripts-pyspark-transforms.html。 所以,我的问题是:在Glue中这样做的好方法是什么?

感谢。

1 个答案:

答案 0 :(得分:3)

AWS Glue没有适当的内置GlueTransform子类,无法将单个DynamicRecord转换为多个{MapReduce映射器可以这样做)。您要么不能自己创建这样的变换。

但是有两种方法可以解决您的问题。

使用Spark RDD API

让我们尝试完全满足您的需求:将单个记录映射到多个记录。由于GlueTransform的局限性,我们将不得不更深入地研究并使用Spark RDD API。

RDD具有特殊的flatMap方法,该方法允许产生多个Row,然后将其展平。您的示例代码将如下所示:

source_data = somehow_get_the_data_into_glue_dynamic_frame()
source_data_rdd = source_data.toDF().rdd
unpivoted_data_rdd = source_data_rdd.flatMap(
    lambda row: (
        (
            row.id,
            getattr(row, f'{field}_name'),
            getattr(row, f'{field}_value'),
        )
        for field in properties_names
    ),
)
unpivoted_data = glue_ctx.create_dynamic_frame \
    .from_rdd(unpivoted_data_rdd, name='unpivoted')

地图+关系化+加入

如果您只想使用AWS Glue ETL API进行请求的操作,那么这是我的说明:

  1. 从源到主键和对象列表的每个DynamicRecord中的第一个map
mapped = Map.apply(
    source_data,
    lambda record:  # here we operate on DynamicRecords not RDD Rows
        DynamicRecord(
            primary_key=record.primary_key,
            fields=[
                dict(
                    key=getattr(row, f'{field}_name'),
                    value=getattr(row, f'{field}_value'),
                )
                for field in properties_names
            ],
        )
)

示例输入:

primary_key|property1_name|property1_value|property800_name|property800_value
      12345|is_male       |              1|is_new          |                1
      67890|is_male       |              0|is_new          |                0

输出:

primary_key|fields
      12345|[{'key': 'is_male', 'value': 1}, {'key': 'is_new', 'value': 1}]
      67890|[{'key': 'is_male', 'value': 0}, {'key': 'is_new', 'value': 0}]
  1. 接下来relationalize:将每个列表都转换为多行,将不再嵌套每个嵌套对象(Scala Glue ETL API docs比Python文档有更好的示例和更详细的说明)。
relationalized_dfc = Relationalize.apply(
    mapped,
    staging_path='s3://tmp-bucket/tmp-dir/',  # choose any dir for temp files
)

该方法返回DynamicFrameCollection。在单个数组字段的情况下,它将包含两个DynamicFrame:第一个带有primary_key,外键用于展平和未嵌套的fields动态帧。 输出:

# table name: roottable
primary_key|fields
      12345|     1
      67890|     2
# table name: roottable.fields
id|index|val.key|val.value
 1|    0|is_male|        1
 1|    1|is_new |        1
 2|    0|is_male|        0
 2|    1|is_new |        0
  1. 最后一个合乎逻辑的步骤是将这两个DynamicFrame连接在一起:
joined = Join.apply(
    frame1=relationalized_dfc['roottable'],
    keys1=['fields'],
    frame2=relationalized_dfc['roottable.fields'],
    keys2=['id'],
)

输出:

primary_key|fields|id|index|val.key|val.value
      12345|     1| 1|    0|is_male|        1
      12345|     1| 1|    1|is_new |        1
      67890|     2| 2|    0|is_male|        0
      67890|     2| 2|    1|is_new |        0

现在,您只需renameselect所需的字段即可。