我正在尝试使用AWS Glue运行一个ETL作业,该作业将数据从Redshift提取到S3。
当我运行爬虫时,它成功连接到Redshift并获取架构信息。在日志组aws-glue / crawlers下创建相关日志。
当我运行ETL作业时,它应该在日志组aws-glue / jobs / output和aws-glue / jobs / error下创建一个日志流,但它无法创建这样的日志流,并且最终这项工作也失败了。
(我正在使用AWS托管的AWSGlueServiceRole政策进行Glue服务)
由于它不生成任何日志,因此很难确定ETL作业失败的原因。如果你能帮我解决这个问题,我将不胜感激。
答案 0 :(得分:2)
大多数情况下,这与您的AWS服务没有正确的权限有关(是的,即使只是写日志!)。
将这样的东西添加到Glue角色可能会起到作用:
{ “版本”:“2012-10-17”, “声明”:[ { “效果”:“允许”, “行动”:[ “日志:CreateLogGroup” “日志:CreateLogStream” “日志:PutLogEvents” ] “资源”:“arn:aws:logs:::*” } ] }
答案 1 :(得分:0)
我会确保通过以下说明正确设置您的Endpoint和VPC:
http://docs.aws.amazon.com/glue/latest/dg/setup-vpc-for-glue-access.html
我的入站规则设置正确但没有设置出站规则,这就是我认为的问题。