AWS Glue流程可以逐行记录

时间:2018-01-25 08:19:16

标签: amazon-web-services amazon-redshift aws-glue

我要求将记录从一个红移群集处理到另一行。我们希望按行处理,因为我们希望以不同的方式处理失败/无效的记录。另一个好处是我们希望在一次记录失败的情况下避免批量重新处理。那么,想检查AWS Glue是否适合这种情况?如果这不适合提供行处理功能的任何其他工具?

1 个答案:

答案 0 :(得分:1)

AWS glue允许您在转换过程中实现自己的PySpark脚本。

Pyspark允许实现针对每一行运行的函数。

有很多方法可以做到这一点,例如:

def f_udf(x):
    return (x + 1)
df2 = df.withColumn("result", max_udf(df.col1))

为每行df运行函数f_udf并生成df2。

有关此问题的AWS Glue特定文档可在此处找到

https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-dynamic-frame.html#aws-glue-api-crawler-pyspark-extensions-dynamic-frame-map