有没有办法从 AWS Glue 作业发布自定义指标?

时间:2021-06-01 05:16:53

标签: amazon-web-services amazon-cloudwatch aws-glue

我正在使用 AWS Glue 作业跨 S3 存储桶移动和转换数据,并且我想构建自定义累加器来监控我接收和发送的行数以及其他自定义指标。监控这些指标的最佳方法是什么?根据此文档:https://docs.aws.amazon.com/glue/latest/dg/monitoring-awsglue-with-cloudwatch-metrics.html 我可以跟踪我的胶水作业的一般指标,但似乎没有通过 cloudwatch 发送自定义指标的好方法。

1 个答案:

答案 0 :(得分:0)

在您的 AWS Glue 作业中考虑 enabling continuous logging。这将允许您通过自定义日志记录。云观察。自定义日志记录可以包括行数等信息。

更具体的

  1. Enable continuous logging for you Glue Job
  2. 在 Glue Job 的开头添加 logger = glueContext.get_logger()
  3. 在您要将信息记录到 CloudWatch 的位置添加 logger.info("Custom logging message that will be sent to CloudWatch")。例如,如果我有一个名为 df 的数据框,我可以通过添加 logger.info("Row count of df " + str(df.count()))
  4. 将行数记录到 CloudWatch

您的日志消息将位于名为 /aws-glue/jobs/logs-v2 glue_run_id 的日志流下的 CloudWatch 日志组 -driver 下。

您还可以参考 AWS 文档 Enabling Continuous Logging for AWS Glue Jobs 的“使用自定义脚本记录器记录特定于应用程序的消息”部分,了解有关特定于应用程序的日志记录的更多信息。

相关问题