我要求将记录从一个红移群集处理到另一行。我们希望按行处理,因为我们希望以不同的方式处理失败/无效的记录。另一个好处是我们希望在一次记录失败的情况下避免批量重新处理。那么,想检查AWS Glue是否适合这种情况?如果这不适合提供行处理功能的任何其他工具?
答案 0 :(得分:1)
AWS glue允许您在转换过程中实现自己的PySpark脚本。
Pyspark允许实现针对每一行运行的函数。
有很多方法可以做到这一点,例如:
def f_udf(x):
return (x + 1)
df2 = df.withColumn("result", max_udf(df.col1))
为每行df运行函数f_udf并生成df2。
有关此问题的AWS Glue特定文档可在此处找到